我国可计算社会科学研究的现状与未来
位置: 首页 >专题范文 > 公文范文 > 文章内容

我国可计算社会科学研究的现状与未来

2022-10-21 19:15:10 投稿作者:网友投稿 点击:

【摘要】人工智能和大数据分析技术的发展为社会科学研究提供了新的技术方法和理念,同时也带来了新的挑战。本文从人工智能技术在我国社会科学研究中的运用现状出发,分析了未来人工智能技术背景下社会科学研究范式的多元化发展和文理融合发展的趋势。强调推动我国可计算社会科学研究发展需要避免的几个误区,比如偏重相关关系的研究而忽略对因果关系的探索,受样本数据偏差的影响而陷入“统计的胡说”现象,以及过度依赖于算法而导致结果偏差放大的现象等。随着文理融合时代的到来,统计学和数据处理相关的计算机网络技术的跨学科普及至关重要,需要尽早开展相关的交叉学科的设置,积极提供网络教育等相关知识普及的公共品。

【关键词】人工智能  大数据  社会科学  统计  计算机语言

【中图分类号】C3                               【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2019.20.005

隨着人类社会的进步和科技的发展,科学研究的方法也在不断演进,从早期以亚里士多德的天动学说为代表的自然哲学研究手法,逐步演变到以牛顿为代表的对自然哲学的数学原理的探索,进一步发展到如今基于数值计算和模拟仿真的计算科学时代。而进入21世纪,人工智能技术(Artificial Intelligence)的发展,揭开了被称为第4代科学——数据集约型(大数据)科学发展的序幕。[1]

传统的科学研究方法主要是基于研究人员通过观察和实验提出假说,然后通过反复试错验证来实现对理论的探索,是先提出理论然后进行验证的过程。而人工智能背景下研究的特征则体现在利用相对有限的小规模的观察数据,然后通过不同场景假设和模拟仿真技术来获取更多数据——即深度学习,最终完成新理论的发现,可以称之为模拟仿真驱动型科学研究,是一个从数据中去发现规律的过程。

人工智能的发展的基础是计算机科学和认知科学的发展,然而应用人工智能的研究领域却不仅仅局限于计算机科学,而是跨界于各个自然科学和社会科学的领域。在我国,人工智能在科学研究中的应用也越来越普遍,主要集中于计算机科学、工程和自动控制系统领域。《中国人工智能发展报告2018》中已经显示中国目前是人工智能论文产出和人工智能专利布局最多的国家。在过去的20年里,中国人工智能领域的论文产出全球占比从4.26%上升到了27.68%,按照国际经济学对比较优势的定义,[2]中国人工智能领域的论文产出全球占比已经大于中国GDP的全球占比了,因此中国在人工智能的研究领域已经属于具有比较优势的国家了。这一定程度上是得益于现今人工智能算法的进化很大程度上以大数据为基础,而中国庞大的人口规模是世界上最好的天然的大数据试验场。

与此同时,随着微观数据的可获得性的增加,社会科学研究领域在最近的20年来越来越趋向于量化研究,其中包括实证研究和反事实分析。以经济学为例,在经济学领域备受关注的约翰·贝茨·克拉克奖,该奖项60%的获奖者都获得了诺贝尔经济学奖。在1995年之前,仅有20%的获奖者的的成果是建立在数据基础上的实证研究(80%是理论研究成果),而在过去的15年内,实证研究的获奖比例上升到了70%。因此,可以预见人工智能中的大数据和大数据技术在社会科学研究领域中的运用将会越来越普遍,而成为社会科学研究领域的一个重要趋势。

人工智能的技术为社会科学领域的研究者们带来了前所未有的大数据的同时,也为社会科学研究提供了新的技术和方法,甚至是新的研究理念。这些对社会科学领域的研究而言无疑是巨大的机遇。但需要注意的是,人工智能技术虽然使得社会科学与自然科学研究在方法上形成了一定的共通性,但是这两类研究之间仍然具有几点本质的不同,如何合理而有效地利用人工智能技术,对社会科学研究者们提出了一些特殊的挑战性问题。首先,社会科学的主要研究对象是人和人类的行为,存在伦理限制的技术手段无法在人类活动中实现完全实验环境,因此人工智能所带来的大数据在社会科学领域很难真正实现理想中的总体而非样本的情境。其次,人工智能可以协助研究者们从更为微观的层面对社会科学问题进行分析,在获得微观个体的精确行为的同时,也对研究者进行宏观规律总结带来了挑战。人类微观活动之间的交互作用是非常复杂的,因此宏观加总的难度也随着数据的细化而成几何级数式的增加。最后,我们对社会科学的研究成果的应用一般不是具体的产品或者服务,而是一些战略性的政策,比如说企业的营销策略,激励机制,政府的政策方针,等等,因此,社会科学的研究成果的影响面会比较大,在分析过程中的稍许偏差很可能会带来巨大的社会影响。

基于上述背景,本文尝试从社会科学领域利用人工智能的现状出发,阐述人工智能为社会科学研究带来研究范式的多元化以及研究技术和方法革新,并进一步深入探讨人工智能给社会科学研究所带来的挑战以及如何应对的策略和建议。

社会科学领域利用人工智能研究的现状

相比自然科学,人工智能在社会科学领域中的应用尚处在比较基础的阶段。罗晨和沈浩(2018)根据美国科学情报研究所(Institute for Scientific Information, ISI)编制的Web of Science(WoS)引文数据库,选取了以人工智能为主题的社会科学领域的发表论文和会议论文,发现社会科学涉及到人工智能的研究最早可以追溯到1975年。然而在最开始的10年,人工智能相关的社会科学领域每年的论文数量仅在个位数徘徊,直到最近的10年,这一数字出现了飞速地增长,每年都有超过百篇的相关论文,其中2017年和2018年,分别超过了200篇。虽然中国在工程和自然科学类的人工智能方面的研究数量领先于世界各国,但是在社会科学领域,我们对人工智能方面的应用还是与发达国家(尤其是美国)有一定的差距,截止于2018年,社会科学领域人工智能相关的文献中国的数量还不到美国的四分之一。

社会科学是研究人类社会种种现象的各学科的总体或者其中任一学科,它包括商业与经济、政治学、法学、伦理学、历史学、社会学、心理学、教育与教育研究、运筹学与管理科学等。社会科学的不同子科学涉及人工智能的研究深度和广度都各不相同。截至2018年,我国人工智能在社会科学子学科中应用最多的是商业与经济方向,共有515篇相关论文;而论及人工智能的应用广度,即在人工智能研究领域的某社会科学子学科与其他学科的关联度,心理学的度数中心度则是最高的。其他涉及人工智能较多的社会科学子科学分别是运筹学与管理科学、教育与教育研究,以及其他社会科学子学科(跨学科、伦理学和社会科学史)。表1表示了应用人工智能最多(深度)的五个社会科学子学科,以及他们相应的广度指标(社会网络分析的度数中心度[3])。

从表1中我们可以看到,社会科学领域中涉及到人工智能较多的这些子学科,也是近年来研究数量化趋势比较明显的社会科学子学科。人工智能的跨学科特征在社会科学研究中的体现是十分明显的,毫无疑问未来将会是文理融合的时代。

人工智能与社会科学研究范式的多元化

如前言所述,人工智能在社会科学研究中的引入使得社会科学的研究方法更为多元化。根据米加宁等(2018)的研究,可以把社会科学的研究范式归纳分为四种。

一是定性分析,即通过类比和推理归纳概括研究对象之间的关系,而现代的社会科学的定性分析就是通过理论建模,解释研究对象之间的复杂逻辑关系,对应于自然哲学研究方法。

二是定量分析,通过“假设-检验”,利用人工采集的数据论证研究对象之间的关系。在社会科学中因果关系的确认是研究者们极为关注的,但长期以来由于数据的局限性,同时社会科学的研究对象的构成要素复杂多变,因此在社会科学研究中大量的定量分析常常存在由于样本的选择而带来的偏差问题,对应于数学原理探索方法。

三是计算实验的仿真研究,其中最具代表性的就是经济学领域中使用的可计算一般均衡分析。它是在通过复杂的数学推导的定性分析基础上,利用有限的真实数据对模型进行校准,当复杂模型被证实有一定程度的有效性之后,通过模拟现实不存在的模拟数据,对研究对象进行反事实分析来完成的。最近10年,计算实验的仿真研究方法在社会科学研究领域越来越到受影响力大的专业学术期刊的关注,其原因归结于这类研究方法能够较好地克服定性分析和定量分析的局限性。

四是基于人工智能的数据集约型研究。现在的大数据研究从数据获取、建模到分析预测几乎都可以由计算机来完成。其数据上的优势是毋庸置疑的,研究的效率也要远胜于其他研究方法;然而这类研究方法的重点却应该锁定在理论建模分析中。如果忽略甚至放弃了理论建模,那么就可能造成对研究对象之间的因果关系以及其他复杂逻辑都不能准确判定,研究结果也难以给与合理解释,因此,必须反复强调的是,一旦大数据的样本存在偏差或者算法出现偏误,研究结果也将会存在很大的误差。

人工智能的发展为社会科学的研究带来了过去无法想象的大数据、新算法,和超强的计算能力,因此在未来社会科学研究的范式必然向多元性发展。

首先,在研究问题的提出方面,大数据的研究范式可以驱动研究者们提出新的研究问题和研究关注点。到目前为止大多数人工智能所提供的大数据是被动收集的,受研究热点或传统研究方向的主观影响较小,因此,这些大数据无论是深度还是广度都可以给研究者们带来新的研究问题的启发,可以帮助研究者跳出必须基于对先行文献综述的传统的框架,而对学科重要问题展开拓展研究的空间变大。

其次,无论是数据的获得、整合和分析,人工智能的运用都会大幅度提高效率,大数据分析,可以让研究者能够更加顺利地观察和捕捉到研究对象之间的逻辑关系。

再次,由于“因果关系是人类理性行为与活动的基本依据,人类理性本身不可能否定因果关系”(王天思,2016)。社会科学传统的理论建模定性分析可以获得研究对象之间的理论因果关系,在此基础上,如能充分利用人工智能的先进算法,毫无疑问可以使得理论建模的假设大幅度减少,模型的复杂程度可以得到大幅度提高,仿真程度也会变得更高和更好。

最后,研究者们可以根据理论模型的定性分析,利用人工智能进行进一步的大数据收集和整合,实现对理论研究结果进行准实验性的定量分析。在社会科学领域的实证分析中,变量的内生性问题,遗漏变量问题以及样本选择性偏差问题是困扰研究者能否作出准确因果判定的关键原因。人工智能所带来的多维度的大数据一般能很好的解决遗漏变量问题,降低样本选择性偏差的概率,同时如果辅以在大数据采集和挖掘前的准实验设计来解决变量内生性问题,那么社会科学的定量研究的说明力将会更强。

如上所述,研究范式的多元化的目标和趋势,是需要既能克服传统研究范式的数据劣势,又能克服完全给予数据科学的大数据研究范式的理论解释力度不足的问题。

可计算社会科学研究的发展

人工智能的运用对社会科学的研究技术和方法带来巨大的影响,推动了被称为可计算社会科学研究领域的发展。主要体现在突破大数据技术突破数据瓶颈,提高分析效率以及能够实现宏观研究的微观支持等方面。

大數据技术(数据采集挖掘,数据储存整合和数据分析)。人工智能为社会科学研究提供了诸多新的分析技术,其中最具代表性的就是大数据技术,这一技术彻底改变了社会科学研究中数据难获得的重大问题,由于数据量的激增,传统的社会科学研究中的数据整合和简单数据分析的方法也随之发生巨大的变化。正如Einav和Hendry(2013)所指出,大数据具有四个主要的特征,即数据体量大,生成速度快,种类多样,以及价值密度低。大数据的运用与传统的数据的处理方法将发生巨大的变化。

第一是数据的实时可得性。传统的数据通常是人工采集的,并且是为了社会科学研究某个特定“假设-检验”为目的而收集的,通常具有较严重的滞后性。数据的实时可得性为社会科学研究中的预测提供了良好的基础。尽管数据的时效性稍差对揭示基于历史过程的社会科学领域的一般规律不会产生较大的影响,但是对于利用这个一般规律来对未来进行预测的时候,数据的实时性对预测结果的准确度而言就是至关重要的了。

第二是数据量的巨大。伴随数据量的巨大化所带来的多维度数据一方面在为研究者提供更多信息的同时,也让研究者在使用数据整合和分析的统计学工具方面也会随之发生质变。处理海量数据将会更加依赖高效的计算机算法和云计算。

第三是数据的结构多元性。传统的数据结构一般不是数值就是文本,而大数据的数据来源更加多样化,可能是传统的数值或文本,也可能是图片、音频,甚至是视频。比如在经济学中常用的用来估算当地经济发展的卫星灯光数据的原始格式就是图片格式。这意味着传统的数据分析方法就不再适用,数据整合的第一步是如何把不同数据格式的数据进行量化处理,转化成社会科学研究可以直接利用的数据形式,这也是需要新的算法和计算机的运算能力。

第四是数据挖掘、储存和分析的技术的更新速度会大幅度增加。当数据的规模越来越大,数据库、并行计算、云计算、机器学习等技术都会成为社会科学研究的中间步骤。

计算模型+数据校准分析的算法和数据辅助。在社会科学领域,研究者们所探究的研究对象的因果关系不会完全被大数据中的相关关系完全取代。在某些规范(normative)研究中,人工智能所带来的高效可靠的相关关系确实已经足够进行一些预测分析,并且可以为政策制定者提供很好的借鉴和支持。然而实证(positive)研究是不可能止步于相关关系的,因果关系才能是社会科学研究者们追寻人类和社会发展规律的本源。人工智能以及人工智能所带来的大数据不应该成为因果关系的阻碍,理想的结果是“大数据会成为因果分析的强大手段”(刘涛雄、尹德才,2017)。

人工智能的算法能够大大提高社会科学研究的分析效率,研究者们在建立理论模型的时候,不需要由于传统的计算能力问题而对模型进行各种假设限制,这使得模型能更好地对真实世界进行模拟。其实在人工智能涉足社会科学研究领域之前,经济学就已经使用了计算一般均衡模型取代传统的理论模型来探讨能源和环境等问题。

计算模型在自然科学领域早已被广泛应用,比如物理学,几乎所有的理论物理研究都是建立在计算模型的基础上。然而计算模型在社会科学领域虽然被应用的时间不短,但是始终没有实现质的飞跃,其根本原因就是计算模型在校准时所需要的数据在社会科学领域比较难以获得。人工智能的介入恰恰能解决社会科学研究数据难的问题。大数据的数据规模和维度可以用来对计算模型进行高精度的校准,同时数据的实时性也可以为计算模型对社会问题的预测提高准确度。

微观分析和宏观分析的结合。现在社会科学研究在做微观个体分析与其在做宏观政策分析时相对比较割裂。[4]比如说宏观经济学的研究方法和微观经济学的研究方法就有很大的差异,哪怕两者研究的是同一个问题,相互之间都很难统一。这是由于社会科学研究的主体是人和人类的行为,人类行为之间的交互作用极为复杂,往往存在“加总的谬误”现象,即微观研究很难进行宏观加总,同样的,宏观的分析也很难进行微观的拆分。

人工智能为社会科学研究带来的大数据使得社会科学研究必然能从更微观的层面进行,同时人工智能也能带来新的计算机算法,能够对微观研究的结果进行宏观的复杂加总和综合,使得社会科学的宏观分析和微观分析有更好的统一性。如此一来,我们既可以实现对微观个体行为的深入研究,也能够破析出各个微观个体相互之间的网络结构,从而进一步得出每个微观个体对不同宏观因素的作用。

可计算社会科学研究所面临的挑战

尽管人工智能技术的运用揭开了可计算社会科学研究发展的序幕,然而要真正达到创造具有实践意义的研究成果,尚需完善一些基础条件。人工智能的核心技术是深度学习,尽管它具有处理大量各类数据的超强能力,但尚不能应对一些异常项的干扰,因此对于复杂现象以及个别特殊现象的推定和解释,离不开具有理论知识的专家系统的支持。如果不考虑这些问题,往往容易陷入一些误区。同时,对于作为专家支持系统的研究人员首先要不忘社会科学研究的初心,探索规律和理论,不能被数据绑架而导致结果偏离。因此不仅需要具有理解各种数据特征和使用数据的能力,也需要具备数据科学的基本素养和一定的编程能力。

可计算社会科学研究中的误区。人工智能为社会科学领域带来了新的研究范式和新的研究技术和方法,这些无疑对于现在越来越依赖于定量分析的社会科学研究而言是极大的机遇。然而,我们必须也要意识到人工智能在带来研究效率提升的同时,很可能也会使得社会科学研究者们陷入研究的误区。

第一个误区是过度注重相关关系而忽略研究对象之间的因果关系。大量的文献已经关注到了这点,王天思(2016)从哲学的角度阐述了大数据中的因果关系,刘林平等(2016)也探讨了规律和因果在大数据应用到社会学领域的重要性,马费成(2018)在论述人文社会科学与自然科学应当相互学习借鉴时也提出可以在相关关系的基础上分析因果关系。如前所述人工智能的运用要摆脱对数值计算的偏重而应将其作为社会科学因果关系的研究的辅助。

第二个误区是陷入“统计的胡说”现象。这里需要关注的是大数据究竟带来的仅仅是样本的增加,还是可以成为总体。在大多数情况下人工智能技术所带来的大数据只是统计样本的增加,也就是从传统分析的小样本到大数据下的大样本。美国机场电子护照的通行经常无法识别深肤色的人种,其主要原因就是在设计人脸识别的人工智能算法校准的时候采用了不具有代表性的大数据样本。在社会科学的研究中也是如此,通过分析有偏的样本,即使它是大數据的样本,得出的研究结论也必定是有偏差的。

第三个误区是过度依赖算法而导致偏差的扩大。现在的人工智能算法只能处理一个特定的任务,也就是狭义的人工智能,[5]由于狭义人工智能的算法是为了某个特定目标而施行的,其算法会在有偏的基本数据样本上带来更大的偏差。Barocas和Selbst(2016)讨论大数据分析可能会带来意想不到估计偏差,文中提到美国波士顿政府曾利用人工智能的算法根据智能手机对道路坑洼的识别来决策道路维护资源的投入,由于智能手机识别道路坑洼这一大数据样本本身就是有偏的,而人工智能自动迭代更新的算法会带来道路维护资源的进一步错配。相对经济发展较为落后的地区而言,波士顿富人区的智能手机持有数量较多,人工智能的算法是通过智能手机是否感受到行车路上是否有坑洼来分配政府的修路资源,带来的结果只能是富人区的道路情况被过度维护。原先的数据样本偏差仅仅是富人区的道路坑洼会更多地被汇报,而人工智能来分配道路维护资源的算法会产生进一步的资源不公平分配的结果。

即使算法是無偏的,人工智能的单一目标也可能会带来公平性的问题。《彭博商业周刊》在2016年的一篇文章中深入讨论了亚马逊公司通过人工智能算法来最大化包裹投递效率和服务最多的客户的目标却导致公司在自动选择服务区域时完美避过大多数的黑人区。作为美国最大的网络零售商,利润最大化无疑是其目标,因此亚马逊公司所设计的人工智能算法并不会把种族考虑在内,这种看似“无偏”的算法实际上却带来了类似于“种族歧视”的服务设定范围,造成社会公平的损失。

需要强调的是,在社会科学研究的过程中,人工智能可能会带来样本和算法有偏的两个误区会产生相互叠加的放大效应,轻则是我们的研究结果可信性下降,重则我们的研究结果可能是伪命题。相比理论的定性分析和传统数据的定量分析,人工智能介入的社会科学研究的研究方法更为复杂,因此增加了其他研究者对研究结果的辨错难度。

社会科学研究人员在利用人工智能进行深度研究所必需的能力。人工智能源于计算机科学,它所需的学习和技术与社会科学研究者所接受的综合训练之间交集很小。相比中国人工智能的论文产出,中国的人工智能人才拥有量不是最高,从绝对数量来说远低于美国,从研究领域来看,中国人工智能人才的研究领域也相对比较分散。

随着人工智能对社会科学研究的逐渐渗透,社会科学研究者们除了要具备传统的社会科学领域的学科训练之外,还需要具备一定的数据工程师和软件工程师的能力。与此同时,社会科学研究者们还需要理解社会科学领域的因果分析方法和现在大数据的相关关系分析方法之间的利与弊,在研究不同问题的时候选择合适的研究方法。

政策建议。新技术的运用必将进一步推动可计算社会科学研究的发展。一般来说,大数据的相关关系分析方法更适合于规范研究,提高预测的准确性,为政府和企业提供政策建议和支持;而大数据辅助的因果关系分析则是实证研究未来的发展方向。人工智能在真正进入计算机算法自我迭代更新和进步之前,还是高技术劳动力密集型的。然而随着进一步的发展,面临文理融合时代的到来,社会科学研究者与数据工程师和软件工程师的跨学科合作也是社会科学研究的必然趋势。这个跨学科融合的基础学科,无疑是统计学和数据处理相关的计算机语言。一些发达国家,比如日本,已从小学即开始进行统计学的普及教育,在大学本科文科类专业中开设“数据科学”专业课,同时也大力推广计算社会科学相关开发软件的学习,如R语言、java语言以及人工智能核心语言Python等。可以借鉴其做法,尽早开展相关的交叉学科设置,以及提供利用网络相关知识的普及等公共品,为迎接第四科学时代的到来,打好基础,做好准备。

(上海社会科学院世界中国学研究所谢一青博士对本文亦有贡献)

注释

[1]人工智能的概念早在1956年的达特茅斯(Dartmouth)会议上就被正式提出了。自那以后,随着计算机和网络技术的飞速发展,人工智能的理论和实践也不断被刷新,其定义的内涵和外延也不断被拓展。现今取得共识的概念大多沿用“人工智能之父”约翰·麦卡锡(John McCarthy)的定义和解释,即认为机器无需像人类般思考才算获得智能,人工智能的关键在于让机器能够解决人脑所能解决的问题。因此,现在大多数研究者探讨的人工智能,是以大数据为基础,利用计算机的运算能力,使用迭代更新的算法来实现对现实情况的分析和决策(张洪忠等,2018;陆汝钤,1989)。

[2]在国际经济学领域,一国相对要素禀赋丰裕的定义是该要素的世界占比大于该国GDP的世界占比,一旦一国的某种要素相对要素禀赋丰裕,该国在密集型使用这一丰裕要素的产品和服务上就具备了比较优势。

[3]罗晨和沈浩(2018)利用社会网络分析法,把各个利用了人工智能进行研究的社会科学子学科作为社会网络中的行为者,通过分析不同子学科在论文发表领域的共现次数,获得每个子学科的度数中心度。度数中心度越高的社会科学子学科与其他子学科的联系更为广泛。

[4]在纯理论模型定性分析的时候,通过对模型的严格假设,微观分析和宏观分析在早期的社会科学研究中也可以实现统一。

[5]广义人工智能是目前人工智能的目标,它是否能稳定存在目前还未被数学证明。Yampolskiy(2015)深入探讨了一种广义人工智能算法存在的boot-strap悖论。

参考文献

张洪忠、石韦颖、刘力铭,2018,《如何从技术逻辑认识人工智能对传媒业的影响》,《新闻界》,第2期。

陆汝钤,1989,《人工智能(上)》,北京:科学出版社。

清华大学中国科技政策研究中心,2018,《中国人工智能发展报告2018》,北京:清华大学公共管理学院。

罗晨、沈浩,2018,《社会科学领域的人工智能研究:基于SSCI文献的探索》,《全球传媒学刊》,第5卷第4期。

米加宁、章昌平、李大宇、林涛,2018,《第四研究范式:大数据驱动的社会科学研究转型》,《学海》,第2期。

王天思,2016,《大数据中的因果关系及其哲学内涵》,《中国社会科学》,第5期。

Einav, L., Hendry, D. F., 2013, "The Data Revolution and Economic Analysis", http://.

刘林平、蒋和超、李潇晓,2016,《规律与因果:大数据对社会科学研究冲击之反思——以社会学为例》,《社会科学》,第9期。

马费成,2018,《推进大数据、人工智能等信息技术与人文社会科学研究深度融合》,《评价与管理》,第2期。

刘涛雄,尹德才,2017,《大数据时代与社会科学研究范式变革》,《理论探索》,第6期。

Barocas, S., Selbst, A. D., 2016, Big Data"s Disparate Impact, California Law Review, 104, pp. 671-732.

责 编∕赵鑫洋


推荐访问:现状 未来 我国 社会科学研究 可计算

猜你喜欢