本文是对时下大数据热的冷思考。如今越来越多的决策建立在大数据基础之上,但很多人却把大数据的的相关性误解为因果性,导致决策失败。事实上,大数据不过是让预测成本变得低廉,但却不能给你带来直接判断。纵然你的数据模型无比精确,但一只黑天鹅或许就能让所有的一切变得徒劳。
如果你爱吃冰淇淋,那么你很有可能溺水。
这当然不是真的。这只是某种大数据模型下所做的预测。大数据的概念被炒了很多年,现在几乎所有人都能说出关于大数据的123来,人们会一遍遍的重申一个观点:大数据的价值不在于数据有多大,而在于利用数据模型去预测。
比如还有几个模型,一个人儿童时代的阴影与肥胖、营养过剩或犯罪记录相关,通过分析一个刚学会走路孩子的行为方式预测他未来的政治立场。
这些模型显然有点扯淡。这只不过是相关性而非因果性的判断,大数据在其间扮演了重要角色。但在一个日益量化的社会氛围里,在大数据被媒体、厂商炒得火热的舆论环境中,越来越多的人开始将相关与因果相混淆。
技术上,对相关性的发掘越来越简单。这得力于并行计算的发展、算法的更新以及摩尔定律作用下的分析成本下降的优势。最简单的相关性分析就是搜索引擎,以Google为例,当用户在搜索框里敲出几个字符,这些字符随即被分配给上千台服务器去检索相关性,并在几秒内反馈出来。
Google的搜索结果并非完全正确的,而只是与你搜索词有相关性的内容。同样,IBM的机器人华生,能赢得Jeopardy比赛,也是通过挖掘海量资料,进而匹配出的正确答案。现在已经有大量简单而又便宜的工具通过建立模型去预测,比如预测员工的诚实度、疾病扩展速度、某个女孩是否怀孕等等。
从某种角度来看,一个数据驱动型的社会是智能或愚蠢的混合体,同时也是公正和残忍的结合。如今这一转变的道德含义越发清晰:在某个层面上,人们对事物的推理开始从无罪推定发展到可能有罪推定。
前文已经提到,大数据所引发的真正价值在于对未来的预测。如今无论是在网站选择一个广告点位,设置最优保险费用还是考虑如何帮助一个中学生更好的学习知识,我们都在将大量数据收集起来进行挖掘分析,从而预测出未来会发生什么。
支持的一方认为,这是一种对人类有帮助的举动。大数据使人类变得更加聪明。比如可以预见流感疫情,比如可以选择在哪里做慈善效果更好。他还促使政府变得透明和开发,我们不再用事实说话,我们开始依靠数据监督。
批评者们有不同的看法。大数据不过是对过往事实的强化,并没有跳出原有的盒子去真正创新。我们过分的依靠机械的进化而不是破坏性的创新。由于是对过往事实的强化,所以很容易将相关性误解成因果性,这无疑是非常可怕的。
大数据并非是预测未来的魔幻工具。尽管有很多所谓成功的案例,但它并不应该成为人们内心预测未来的工具。大数据让预测成本变得越来越低,从而带来大量相关性的预测,然而预测并非事实。随着我们越来越依靠数据,我们必须记住一个事实,就像我们不能为了防止溺水而禁售冰淇淋一样,我们不能依靠今天的数据去预测明天的一切。