大数据给社会学带来了什么挑战?
今天下午,我准备与大家讨论三个问题:第一,什么是大数据。关于大数据大家说的很多,但是其中错误概念也非常多,我想从我的角度来给澄清一下大数据是什么。第二,大数据和社会学研究到底有没有关系。相信这也是大家比较关心的议题。第三个,大数据对社会学研究带来了什么挑战。大数据给当今社会带来的挑战非常多,但对社会学研究而言,到底有什么样的挑战呢?我自己有三点看法与各位分享。首先,我们来看一下什么是大数据。
1.什么是大数据?
大数据是痕迹数据汇集的并行化、在线化、生活化和社会化。
对社会学研究,我们最熟悉的是社会活动,我称其为人类活动。其实今天,不仅仅社会活动,你的私密活动也在数据之中,我没有加“社会”两个字,道理就在于人类的活动都在慢慢地数据化。在人类活动中,有一个概念叫做造痕,考古挖掘的,就是人类社会生活留下的痕迹。过去,我们通常拿这些痕迹做证据,比如考古学、历史学和社会学的许多研究活动。这些证据有一些会被数据化,数据化了的证据就叫做数据。
既然很早以前就有“数据”,今天怎么就出来一个大数据呢?一个非常重要的因素,就是网络化汇集和网络化存储,把过去的数据集中起来,这才构成了大家讨论的大数据。
那么,什么叫大数据?麦肯锡从行业和业务价值链的角度给了一个定义:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘与运用,预示着新一波生产率增长和消费者盈余浪潮的到来。麦肯锡认为,大数据将是一个生产力的来源。今天,我们在讲“互联网+”,背后有一个非常重要的概念,叫数据驱动。过去,我们的研究活动叫理论驱动,今天,数据驱动已经变成了人类社会研究中非常重要的概念。 “大数据”概念最早从哪里来呢?没有确切的证据,但是IBM很早就开始谈大数据了。IBM给大数据的定义是“4个V”:数量(Volume)、形态(Variety)、价值(Value)、速度(Velocity)。这是从数据本身做的定义。
沿着IBM提出的“4个V”,先做一个简单的说明和解释。首先,从数量来看,大数据的数据量已经超出了任何个人在可接受时间范围内搜集、利用、管理和处理数据的能力了。2012年,对数据的计量已经从MB级跃升到TB级了。现在讲大数据,基本都是在PB级及以上。这个量级,超出任何单部计算机乃至大型机的处理能力。其次,从数据形态来看,传统的数据,通常是结构化数据,大数据则是混合形态的数据。在大数据中,有一部分是结构化的数据,如SQL(结构化查询语言)数据,更多的则是非结构化的数据,如日志、音频、视频、图片和地理位置等数据,大都是非结构化的。第三,从商业领域来看,大数据的价值密度比较低。传统的数据,通常是目标导向数据,有非常明确的价值,比如说CFPS(中国家庭动态跟踪调查)。大数据则是记录导向的,是为了记录数据而不是为了得到某个特定事件的数据,不是为了解释某个事件而记录数据。这是数据获取方式上非常重要的变化。大数据第四个重要特征是速度。传统的数据,从测量到可用,需要相当长的时间,赫尔曼•霍尔瑞斯在统计1890年人口普查数据时,发明了读卡机,用1年的时间完成了原本耗时8年的人口普查活动;CFPS从调查结束到数据可用,也需要1-2年的时间。大数据 ,几乎随时可用,每时每刻都在记录数据,每时每刻这些数据也可用;不过,可用,也有一定的约束性。对研究而言,不是针对一个具体研究问题可用,而是说,如果你想研究某个尚未模型化的问题,可以随时截一段数据来,进行数据清理的可用。从社会研究的视角,我自己给大数据一个定义——大数据是痕迹数据汇集的并行化、在线化、生活化、社会化。 数据汇集的并行化是一个计算机科学概念。并行,指可以同时运行很多个线程。在线化,就是数据本身在线上,不在你的桌面计算机或移动硬盘中。社会化,指每个人都有可能是数据的提供者。在过去,大多数都是由机构或者个人找“样本”提供数据;但是今天,每个人,只要接触传感器,甚至走在大街上,都是数据的提供者,同时,也是数据的使用者。生活化,则指数据的无处不在,无论是工作中还是生活中,数据始终伴随着人们。
简单地说,大数据,就是形态数字化、非结构化、在线流动着的数据,容量至少在PB级或以上,与社会行为相伴生、通过设备和网络汇集的数据。大数据是完整的,却不一定是系统的,它无时无刻都在记录着人类的行为。
因此,对社会学研究而言,大数据是一种新的研究数据来源,一种永不停息的、流动的研究资源,不一定是对其他来源数据的全面替代。
2.大数据和社会学研究有关系吗?
大数据和社会学研究关系密切,对其应用,目前,看起来似乎没那么紧迫,且主要对实证社会学产生较大的影响,逐渐地就会影响到社会学,甚至整个社会科学。
在社会学想象力的前提下,我把社会学的研究分为三大类。
第一类——思辨的社会学,社会学的鼻祖们,基本上都采用了思辨的方法在研究社会学。后来的,比如说帕森斯、福柯、吉登斯等也是。思辩的社会学,主要采用“概念”工具,而不讲求对概念工具的测量,这些社会学家们,基本不用数据。
第二类——诠释的社会学,从胡塞尔以降到舒茨式的现象学社会学等。这些学者,主要是围绕“意义”进行研究。对他们来说,现象的代表性或许是没有意义的,现象本身却具有意义。他们的任务,就是阐释现象的意义。这一类社会学研究,或许也不用数据。
第三类——实证的社会学,主要源于年鉴学派,也是社会学研究中作品量比较大的一类。如果把这一类社会学与前两类社会学做一个简单的区分,就在于是否使用假设检验和经验检验。
目前,数据与社会学研究关系最密切的,是第三类——实证的社会学,实证社会学研究离不开数据。
实证社会学有一个发展的过程。1998年,Platt对美国社会学研究做了一个长时段的回顾,发现:1915年-1924年,35%的社会学研究文章中用的是个案,53%用的是统计;到1964年使用统计方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)两个主流的刊物。在今天,除非做纯粹的社会理论研究,只要涉及到社会事实的文章,似乎都需要用数据进行检验。在中国也一样,王文韬在2000年的研究,也证明了中国社会学研究实证化的趋势在迅速加强。
过去,实证社会学研究的数据主要来自于调查活动。二战以后,从密西根大学建立ISR(Institute for Social Research)开始,数据科学开始慢慢兴起。在大数据到来之前,主要有三个数据来源,分别代表了三种资源来源和三个群体的权力。第一,行政数据,各国政府、各级政府,掌握的各种ID、身份、流动、登记、就业、生产、消费等信息;第二,商业数据,比如说过去近三百年的金融数据、生产交易数据、劳动工资数据等,都在商业机构手里。直到1930s开始,社会科学家逐步认识到数据的重要性,开始寻找数据。二战以后,ISR逐步发展了一整套依靠学术力量获取数据的方法,并建立了覆盖人类社会、经济、教育、健康生活的各类调查数据。在一定意义上,调查数据,成为学者手中一项资源,也是学者在社会中发出声音的一种依据。 由此看来,从社会学研究发展的视角来看,大数据和社会学有密切关系,只是,目前看起来冲击似乎并不大,也主要是针对实证社会学的冲击。在将来可能就不是这样了,对大数据的应用不仅对社会学而言会变得十分紧迫,甚至对所有社会科学而言都将如此。
3.大数据给社会学带来了什么挑战?
今天,社会研究依然需要通过调查获取数据。或许大数据研究的范式重在发现,而不是重在推论。社会研究的基本目标还是要把握事物之间的关系模式,不过,在大数据中,这种把握的技术变了,需要运用数据挖掘技术。不仅如此,大数据给带来的更大挑战,在于对整个教育体制的挑战。
在大数据应用日益广泛的现代社会中,进行社会研究依然需要调查数据。的确,对于大数据而言,无需调查,只需选择。调查数据,是有目的、有假设地去搜集数据。对于大数据而言,没有任何人可以做某个单一的研究假设,也没有任何人有能力做普适的研究假设。正是在这个意义上,对大数据的分析,重在发现。而且目前主要是机构性的应用,尤其是商业机构,比如阿里巴巴对大数据的应用,在世界范围内名列前茅。
如今的学术研究,还没有运用到PB级数据。社会学的研究,运用的基本上是大数据中的数据,访员不再向调查对象去搜集数据,而是向数据(机器)搜集数据。
2013年,哈佛大学的G. King教授做了一项研究,从社交媒体获得数据来看中国沉默的表达,他从1382个社交媒体网上,运用网络爬虫获取数据,是大数据中的数据。
2012年我做的“谁在开网店?”用的是淘宝600万个店家数据中的1%店家数据,也是大数据中的数据。
那么,大数据来自于哪里呢?
大数据的第一个来源,是传感器。人类社会的对传感器的运用,2005年只有1.3亿个,到2010年就发展到了30亿个,今天,大概有45亿个。什么叫传感器呢?广义地硕,任何可以监测、数据化、传输的工具,都是传感器,手机、手环、大街上的探头等,都是传感器。 大数据的第二个来源,是互联网。谷歌每天要处理大约24PB的数据,百度每天大概新增10TB的数据。大数据的第三个来源,是社交网络。像Facebook每天要处理23TB的数据,Twitter每天处理7TB,腾讯每日新增加200-300TB的数据,中国电信大概每天也有10TB的话单,30个TB的上网日制和100TB的信令数据。 还有,如金融、零售、科研以及政府等部门的数据。譬如,每个交易周期,纽约证券交易所要捕获1TB的交易信息。淘宝每日订单超过1000万,阿里巴巴已经积累的数据量超过100个PB。
大数据给社会学研究带来的挑战到底在哪里呢?
大数据带来的第一个挑战就是还要不要调查数据。事实上,对调查数据的挑战,取决于对调查数据的替代程度和扩大程度。相对于大数据而言,调查数据,就是小数据。大数据与小数据有一个交集,两种数据交集重叠的部分会怎么样增长,取决于两个因素,一个是传感器技术的发展,一是数据挖掘的算法技术的发展,这两项技术未来的发展,直接影响到社会科学未来发展的走向。
对于调查数据来说,比如说人口普查,健康调查之类的,这些调查到底干什么呢?对个体研究而言,他研究人的行为、健康、教育、成就、幸福;对于群体而言,研究群体的行动,结构和动态;对于社会而言,研究社会的状态和动态,这些研究未来有没有可能用大数据来替代?完全有可能,如果数据整合能够实现,替代的速度可能还很快!
比如,微信社交网,就是人的人情网络或人际网络;淘宝就是生活网;还有交通网,工作网,健康网。大家手腕上戴的智能手环、手机、电脑、家用电器等,这些设备如果互联互通,也会形成巨量的数据。用《信息简史》一书中的一句话来概括:万物皆比特。数据就在那儿,问题是怎么用。未来,社会学研究对数据的利用,取决于数据化覆盖的范围。第一个覆盖的是教育,在线教育;第二个是健康,未来的健康将是完全数据化的健康;第三个是物联网,所有的器物之间连通、数据化;还有硬件、工程、制造、农业、金融等等领域,都将被数据化。既然各行各业都被数据化了,那么,大数据给社会学研究带来的第一个挑战就是:“社会研究还需要调查吗?”对这个问题,我认为有两个点值得探讨——转换和替代。第一个是转换数据,第二个转换思维。数据的来源已经完全变了,需要调查的东西越来越少。替代,未来也有可能完全不需要做大规模调查,调查的重要性会越来越低,这是一个大趋势。
第二个挑战,社会学研究范式还有用吗?在《大数据时代》中,作者提到过去的研究范式是抽样、精确、因果。作者说,这三个过去我们为之努力奋斗的范式可能面临着革命性的转变。事实是否如此,现在依然有争论,至少这是一个值得认真思考的信号。
我自己有一个看法,运用调查数据做研究,是假设检验进行推论;运用大数据做研究,显然是通过数据进行总体归纳;方法上的确是一个本质的转换。我们知道自然科学用重复检验,社会科学没有重复检验的条件,只能做假设检验。如果数据归纳在迭代中能够满足重复检验的条件,是不是就会真正地“科学化”呢?目前,至少有一点是可以肯定的,那就是大数据研究的范式重在发现,而不是重在推论,社会研究的基本目的没有变,还是要把握事物之间的关系模式。
大数据的分析是从数据挖掘开始的,运用的是数据挖掘技术。数据挖掘,就是发现有意义的模式和规则。挖掘,是大数据分析的基本策略,不是具体方法。
大数据挖掘有一些基本步骤。首先是属性归类。归类之后再降维、降低容量。降维、降容之后,就是结构化的数据了,跟调查数据差不多,接下来,就是从数据中发现模式。
如此,大数据分析至少有4个步骤:第一,拿到数据使用权,;第二,在高性能计算系统中降维降容;第三,获取可分析数据;第四,进行分析(模式发现)。
对社会学研究而言,这也是大数据分析的基本步骤。
降维降容之后的,就是集成的数据;接下来是进行数据选择,数据变换;完成变换后的数据,就是可以用于模式发现的数据了,通过建模,机器学习、发现模式,评估模式,直到获得稳定的模式,那就是知识表达。其中,数据挖掘,跟社会学研究一样,有描述性挖掘,也有预测性挖掘。描述性挖掘,同样是探讨特征、探讨社会事物的属性;预测性研究,同样是探讨变量之间的关系。
对大数据进行描述性研究,需要做四个方面的工作:第一个是做特征分析,点分析。第二个是做关联分析,双变量和多变量的关联分析。第三个是做聚类分析,聚类主要是做多特征的综合聚类,最后做离群点分析。
利用大数据进行预测分析的基础不是理论建模,而是数据建模。数据建模不同于统计建模和数学建模。统计建模基本上是基于理论的建模,数据建模是基于数据归纳的建模,这是两者最重要的区别。
基本模型可以分成两大类,一是分类模型,一是回归模型。分类模型讲类别、讲特征值;回归模型做预测。
因此,数据挖掘,是多种技术的应用。首先得学统计学;其次是用于多个方面的算法。我认为,算法,是未来社会学学生至少应该懂的东西;第三,一些其他的技术。其中,算法涉及到数据库技术、可视化技术、机器学习技术、模式识别技术等。
大数据挖掘的统计技术与对调查数据进行统计分析的技术大题相同,也有描述统计、预测性统计等。总体上来讲,回归是一种最常用的统计模型。算法,则相对复杂一些,也是数据挖掘的核心技术,不仅用于数据库构建,机器学习等也跟它有关。
机器学习,是机器根据数据建模的模型进行学习,通过迭代,让模型稳定化。比如说某个参数,在调查数据中,参数是通过统计计算得到的,在大数据分析中,则是在初始模型的基础上,通过机器学习获得的。
面对大数据的挑战,社会学的优势在哪里呢?社会学曾经的优势有调查数据,有分析数据,有运用数据知识的积累,这是实证社会学最核心的三部分,构成了实证社会学独特的知识能力。
但是今天,这一切变了,社会学只剩下运用数据知识的积累这一个优势了。调查数据的优势,在慢慢失去;分析数据的优势,也在慢慢丢失。唯一剩下的或许只有运用数据知识的积累了。未来,如果社会学不能掌握大数据运用的知识与能力,没有超过其他学科的想象力和建模能力,基本上,社会学学者将完全沦落为各类组织的劳工。
应对大数据带来的挑战,我们要有能力把握数据化社会的特征。其实,挑战远不在于此,更大的挑战还在于,与大数据相伴随的“互联网+”对整个教育体制的挑战。大家知道大英百科全书曾经是世界上容量最大的百科全书,今天我们还需要买大英百科全书吗?完全不需要,维基百科上,知识的正确率高达96%,而且完全免费,比300部大英百科全书总量还要大。
不仅如此,今天,人们的学习方式也正在发生巨大的改变,甚至是革命性的变革,对知识性的内容,人们不再需要传统意义上的老师;对思维性的内容,人们虽然依然需要传统意义上的老师,可是,老师又如何保证自己的能力可以满足人们学习的需要呢?因此我认为,大数据带给我们更大的挑战在于正在出现的教育模式的革命性转变,在于大学的教育模式的转变。未来的教育模式是什么样?班级模式还会不会在?这些都是值得我们深思的议题。
学习模式在变,我们的初等教育、高等教育的教育模式也要改变。斯坦福的Coursera平台,汇集了全世界有7000多门优秀课程,全世界最好的老师在上面PK,只要讲的不对,立马就有人指出,这是教育模式革命,现在仅仅只是一个开始,我认为这才是大数据带给我们的更大挑战。