Facebook 的困境:技术和社会的裂痕

转载来源:https://github.com/liuyubobobo

更新时间:2019-06-19 09:39:26

成功=艰苦的劳动+正确的方法+少谈空话。 ——爱因斯坦

2015年12月初,Facebook 的掌舵者扎克伯格,与她的妻子,迎来了他们的第一个女儿。那个时候,扎克伯格热情洋溢地写了一封《给女儿的信》。因为这封信,我那时还发了一条朋友圈。这封信感人肺腑,热忱地向世界宣布了 Facebook 的使命:连接这个世界上可以连接的一切。我强烈建议所有同学,有时间,再在互联网上搜索一下这封信。即使你以前读过,时隔三年,再看一看,或许会有不一样的体会和理解:)

图片来源自 facebook

然而,在随后的三年半的时间里,Facebook 确实在试图不仅仅连接每个人和他的朋友们,还在尝试让每个人和整个世界连接起来。然而,这个尝试,遭遇到了越来越多的麻烦。2018年,“删除 Facebook 账号”运动在互联网上蔓延开来。很显然,Facebook 遇到了前所未有的挑战。

在这篇文章中,我将带领你回顾过去的三年多的时间,Facebook 到底遭遇了什么麻烦。这些麻烦背后的本质,到底是什么。无数的互联网专家,社会学家,新闻记者,政客,学者,甚至开始思考,这到底是 Facebook 的麻烦,还是社交网络发展过程中,人类终将面临的问题。

值得一提的是,由于各种原因,中国和西方世界的社交网络产品,无论从产品设计,还是具体的运营方式,监管方式,都有很大的不同。但是,Facebook 遭遇的问题,在中国不会出现吗?或者,会以另一种形式出现?或者,其实已经出现了,但是我们不知道?

还是让我们从2012年,Facebook和Twitter的战斗开始吧:)

1.

如果把时间拨回到 2012 年,在路边问一个美国人,你用什么方式和自己的朋友们保持沟通和联系,那一定是 Facebook 。但如果问题是:你用什么方式了解这个世界的最新动态,答案是 Twitter。

在彼时,Facebook 更强调好友和好友之间的互动,虽然你的好友也可能发表一些和时事相关的话题,但和“新闻”这个概念还相差甚远。Twitter 则不同。任何一家新闻媒体,都可以创建一个 Twitter 账号,并发布最新的时事,任何人,都可以关注这个账号,第一时间看到这些新闻,分享这些新闻,评论这些新闻。

Twitter 的应用场景,和 Facebook 所强调的“好友关系”,是截然不同的。比如,现在大家都戏称川普是 Twitter 治国,为什么不是 Facebook 治国?就是因为,让普罗大众都去和 Facebook 上的川普成为好友关系,是不现实的。但是在 Twitter 上关注川普,是没毛病的。前者的本质是熟人社交;后者的本质是媒体发布。

**看新闻是人类的刚需。**看新闻,也是每一个个体和这个世界连接起来的有效手段。让更多的人和这个世界更有效的连接起来,本来就是 Facebook 的使命。至少,这么说堂而皇之。实际上,更重要的是 Facebook 在互联网领域的地位,在那时,也被 Twitter 严重威胁着。如果你经历过那个时代,就会知道,Twitter 才是万众瞩目的焦点。值的注意的是,那时,在中国社交媒体上,新浪微博也是最闪亮的星。

不管怎样,Facebook 决定开始反抗。它的做法很简单,邀请大量新闻媒体,在 Facebook 上开账户,同时,让用户可以轻松地在自己首页的信息流上,看到大量的新闻信息。用户可以为新闻信息点赞,发表评论,或者分享。对于新闻信息来说,用户的这些动作,就基本等于“关注”了。所以,如果你赞了一个 CNN 的关于保护野生动物的新闻,你就有很高的概率,在你自己的信息流上,再次看到来自 CNN 的新闻,或者关于保护野生动物的新闻。你不需要和 CNN 成为好友。

换句话说,新闻媒体可以把 Facebook 当做 Twitter 来使用。而且,很快,人们就发现:对于新闻媒体来说,Facebook 比 Twitter 更有效。这也许是因为,Facebook 本来的好友基础,是人与人之间的强关系。所以,大家更愿意去看自己的朋友在看什么新闻,更愿意和自己的朋友一起去评论,讨论一个新闻。

到了 2013 年底,Facebook 已经倒逼 Twitter,让 Twitter 的流量急速下降。到 2015 年中旬,在新闻阅读推荐上,Facebook 已经超过了 Google。换句话说,有更多的人,是通过 Facebook 获取新闻,进而转去新闻网站做仔细浏览,而非 Google。对于这个数据,Facebook 则已经是 Twitter 的 13 倍了。

在新闻注意力这个战场上,Facebook 大获全胜。但或许正是因为如此,为 Facebook 的后来,埋下了隐患。

2.

把新闻推荐给读者,并不是一件容易的事情。作为一家高科技互联网企业,Facebook 部署了强大的智能算法,来进行智能推荐。但是,人工的干预依然不可避免。

在那时,Facebook 有一个专人小组,来手工做一些事情。这些事情包括:

为新闻数据做标识,来更好的训练算法,告诉机器什么是更重要的新闻; 对于一些突发新闻,需要第一时间手动插入推送流中,因为等到机器反应过来这是一条重要新闻,可能已经错过了最佳新闻传播期; 当然,也包括对一些不当的,被机器错误地以为很重要,但其实并没有那么重要的新闻,手动把它降级或者撤销,等等等等。

这个小组被称为“新闻趋势组”(我的翻译,原文是:Trending Topic)。他们的工作内容在这个人工智能时代,是很正常的。所谓的“有多少智能,就有多少人工”。但麻烦在于,这个小组的成员都是媒体人。有着天然的媒体嗅觉,这个小组里面的一个人,闯了大祸。

2016 年,美国新的总统大选前夕,在 Facebook 的一个内部交流的活动中,活动组织者收集员工们最希望扎克伯格谈一些什么话题。结果,支持率最高的话题是:Facebook 应该做点儿什么,才能阻止川普成为美国总统。

在这里,我们不去分析美国的政治光谱问题。但是,新闻趋势组的一名成员——Fearnow,觉得这个事情有一定的新闻价值,于是把这个内部活动,报给了自己在媒体工作的朋友。

结果可想而知,这条新闻在美国引起了轩然大波。因为此时,Facebook 已经成为了人们阅读新闻的重要来源。而这条消息,似乎意味着 Facebook 这个平台,不是政治中立的。如果 Facebook 政治不中立,就有可能左右平台上的政治言论出现的数量和方式,打压一方,宣扬另一方。这甚至可能左右最终大选的结果。

Facebook 花了很大精力去公关,来和大众说明自己平台的中立立场。虽然,Facebook 的大部分人员,都是民主党的支持者,但是,为了度过舆论危机,他们甚至专门请来了若干保守党的核心力量,进行了闭门会议,以表示自己绝没有偏袒民主党。我甚至怀疑,由于这些原因,Facebook 不得不一定程度去“拥护”对共和党有力的新闻,以证明自己的“中立性”,给川普最终的胜利,埋下了伏笔。

那时的 Facebook,虽然已经拥有了巨大的新闻阅读流量,却开始被“新闻”这个业务所累。那时的他们,就应该已经意识到了,拥有这个控制权的核心问题,是如何保持中立。

作为一家汇集多个媒体新闻的平台,你必须要保持“新闻中立”。这在美国,这是极其重要的。但如何平衡来自那么多新闻源的报道?这已经不完全是一个技术问题了。

3.

Facebook 侵蚀新闻行业流量的做法,也引来了媒体界的不满。因为,媒体发现,当大众越来越多地依靠 Facebook 来获得第一手消息的时候,他们的利润开始大幅度下滑。但是,由于大众的注意力已经被 Facebook 垄断了,媒体又不得不把自己的独家新闻发布在 Facebook 上。

一定程度上,Facebook 把新闻媒体行业绑架了。这有点儿像滴滴和司机的关系。虽然很多司机对滴滴的诸多政策不满意,但又不得不在滴滴平台上继续接单。

在 2016 年的一次商业大佬的顶级峰会上,媒体界的大佬们终于开始向 Facebook 施压了。媒体界的朋友希望 Facebook 做出一些改变,以改善媒体的生存困境。但到底要怎样改变,其实,很多媒体工作者也没有想清楚。不过,其中有一个诉求很有意思,就是希望 Facebook 公布在信息流推送新闻的算法原理。

用户打开 Facebook,第一眼看到的,是一屏幕的信息流。这些信息流,有来自自己朋友的“新鲜事”,也有不同新闻媒体的实事报道。那么,这些内容是如何进行排序的,就是一个很关键的问题。到底是什么因素,在影响一条消息的权重,是媒体工作者希望了解的。

但是,这样的一个诉求,是 Facebook 无法满足的。

首先,这个核心算法的原理,是绝对不能公之于众的。因为,一旦别人知道了内部的算法原理,就可以想尽一切办法,利用这些原理,来让自己的文章排名靠前。而这些利用的手段,将降低用户在 Facebook 平台上的使用体验。

这样的事情,之前在 Google 中就发生过。Google 早期,所有的人都知道,影响搜索引擎排名顺序的关键,就是有多少网站指向了你。算法认为,有越多的网站指向你,就意味着你越重要。结果就是,人们开始利用这个规则,创建大量无意义的垃圾网站,指向自己,来提高自己在 Google 中的搜索排名。这显然将导致重大的社会问题。一家医院的网站排名是否靠前,将不取决于这家医院的医疗水平,而是这家医院是否足够有钱创建大量的垃圾站指向自己。

在很长一段时间里,Google 都在解决这个问题。如今,Google 的搜索引擎排名算法,据说已经是一个拥有上千条规则的黑箱子了,并且,是 Google 的顶级商业机密之一。

说回 Facebook,Facebook 无法公布这个排序算法原理的第二个困境在于,可能 Facebook 自己都不能说明白这个排序算法背后的原理。这是当下人工智能发展的一个重大困境,即很多算法不具备可解释性。

什么叫一个算法的可解释性?就是我们不仅要能得到算法的判断结果,还能清晰地知道,算法为什么得到了这个结果,是哪些因素在起作用。

但是当下,对于人工智能的主流方法——深度学习,却大多不具备这个性质。比如Alpha Go,已经战胜了人类最强的围棋选手,但是,我们并不能通过Alpha Go,更深入的理解围棋,进而让人类的围棋水平产生整体提高。算法只是一个黑箱子,经过上亿次甚至是千亿次的计算,得到了一个很“好”的结果。但是,我们不能将这些计算的过程,总结成规则,或者经验,帮助我们前进。

实际上,这也是当下,人工智能算法还不能实际应用于诸多真实的社会场景中的一个重要原因。

所以,一个奇怪的事情发生了,Facebook 表示自己的算法在推荐“可以信任”的新闻,却不能说明白什么叫“可以信任”。

4.

真正让 Facebook 坠入深渊的种子是在 2007 年埋下的。那时的 Facebook 开放了很多开发者接口,允许第三方使用这些接口,做属于自己的应用程序。这有点儿像今天微信的小程序。

2013 年,剑桥大学的一名研究员 Kosinski,开发了一个性格测试的第三方应用,放在了 Facebook 上。这个应用的本意,是进行一个心理学相关的学术研究。

这个应用异常成功,获得了总共 600 多万用户的使用。其中一部分用户同意将自己的数据用于学术研究。

在这里,我觉得有必要说一下,这些数据到底是什么内容。这些数据并不是用户的基本信息,而更多的,是用户的基本行为,在心理学界,称为行为数据。

比如,你看了一篇关于野生动物保护的文章,你的浏览这一行为,就被记录下来了;你给这篇文章还点了一个赞,你的这个点赞行为,也被记录下来了;你在这篇文章下还发表了一份评论,你发表评论这个行为本身,包括发表评论的内容,也被记录下来了。

Kosinski 基于这样的一批数据,和另一名研究人员 Stillwell 一起,先后发表了两篇在心理学界极其轰动的研究成果。总体来说,这两篇研究成果都是在说:只要数据规模足够大,使用这种数据对用户进行建模,然后来预测用户的一些特征,比如性取向,政治倾向,购买意愿,等等等等,都是非常非常非常准确的。你没有看错,我用了三个非常。

这项研究结果之所以轰动异常,除了颠覆了心理学界的基本研究方法之外,还意味着,其实,我根本不需要问你政治倾向是怎样的,或者喜欢吃什么东西,愿意买什么东西。只需要分析你在 Facebook 上的行为记录,我就可以完全的了解你,甚至,比你自己还了解自己。

5.

这个研究结果,很快吸引了一个叫做剑桥分析(Cambridge Analytica)的公司的注意。值得注意的是,这家公司其实和剑桥大学一点儿关系都没有。在英国,有一个郡,就叫剑桥郡(Cambridgeshire)。

剑桥分析意图向 Kosinski 和 Stillwell 购买这批数据,结果价格没有谈拢。这时,一个叫做 Kogan 的人出现了。他和剑桥分析达成了协议,直接抄袭了 Kosinski 的做法,也只做了一个心理测评的应用,放在了 facebook 上,收集用户数据。为了吸引用户,他甚至给每一个使用者5美元的奖励。对于互联网上的“兼职赚钱任务”来说,这简直是天价。

最后,他的应用获得了 27 万人的授权使用。而这 27 万用户,每人平均有200个好友,这批数据也会关联上这些好友的数据,整体涉及的人数,达 5000 万人之多。

但是,到此为止,Kogan 获得这些数据的手段,其实都是合法的。不过之后,Kogan 将这批数据,转手卖给了剑桥分析。这个行为违背了 Facebook 指定的安全协议,是违法行为。因为,这些数据可以用于公共领域的学术研究,而不能被用于商业用途,谋取利润。

剑桥分析拿到这批数据做什么呢?答案是,为川普的竞选团队服务。前面曾经介绍过,使用这批数据,就可以精准地了解你的偏好,那么如果运用你的偏好,推送符合你口味的“政治新闻”,就可以一定程度上左右你的判断。

比如,如果分析出,你对周边的墨西哥邻居有一些反感,剑桥分析就给你推送新闻,川普上任后,将严格管控墨西哥移民。妥妥地说到你的心坎上;

再比如,如果分析出,你对现行的医保制度不满意,剑桥分析就给你推送新闻,川普上任后,将改变现有的医疗体制。连具体怎么改,都想办法和你想的一样一样的;

这套策略也可以反向使用。比如分析出你是个爱心人士,经常捐款,就推送新闻,抹黑希拉里,表示希拉里曾经滥用捐款,是个无良的黑心政客。

这是前所未有的精准打击。

更更重要的是,剑桥分析推送的这些新闻,其实很多都是假的,是依据不同的网民偏好,捏造出来的内容,以此来影响选民的判断力。

2016年11月8日,川普赢得了美国大选。2017年1月20日,第58届美国总统就职典礼上,川普正式上任,成为了新一届的美国总统。

6.

很多人说,川普之所以能胜出,是因为其竞选团队真正玩转了 Facebook。

而这背后,就是剑桥分析这家大数据公司。这家公司利用了Facebook的数据,利用了Facebook的平台,最终,达成了自己的目的。

Facebook费尽心思,成为了一个让读者阅读新闻的平台,但剑桥分析公司利用了这一点。这件事情曝光之后,剑桥分析被第一时间关停了。但Facebook同时也被控:恶意操纵 2016 年美国大选。

讲真,Facebook稍微有点儿冤。因为发生的这些事情,并非 Facebook 的主观意愿。实际上,整个过程,唯一的违法环节,是Kogan将这批数据出售给了剑桥分析。这个过程,和 Facebook 半毛钱关系都没有。可是,大众不管这么多。

经过很长时间的讨论,最终,法院裁决,“Facebook恶意操纵2016年美国大选”这个指控并不成立。因为,并没有足够多的证据表明,剑桥分析在Facebook上的行为,真的改变了美国的大选的结果。

但是,大众依然不买账,轰轰烈烈地开始了“删除Facebook账号”的活动。一时间,Facebook股价大跌。毕竟,就算你没有操纵美国大选,人民群众也被你们的假新闻欺骗了感情。

确实,假新闻是一个让 Facebook 头痛不已的问题。因为,要想捏造一个假新闻,太过容易,但要想鉴别一个假新闻,又太过困难。因为,真与假之间的边界是模糊的。

一个新闻,有一半是真实的,另一半是捏造的,到底叫不叫假新闻?

对于那一半真实的新闻,可能包含当事者的主观感受,而主观感受可能是不准确的,可却真实地存在于当事者的头脑中,这叫不叫假新闻?

如今,这些问题突然出现在了技术公司面前,因为技术公司希望使用算法来自动识别它。可突然间,人们才发现,我们连什么是“真”,什么是“假”都没有搞清楚。我们对“假新闻”根本没有一个明确的定义,又怎么能判断出什么是假新闻?

美国大选后,Facebook发力解决假新闻问题。到2018年底,Facebook已经拥有了一个包含3万人的团队,来进行平台的安全防卫工作。这个数字,近乎等于美国报纸编辑从业人员的总和。而其中,约有1.5万名员工,在进行内容审查工作,以消灭假新闻。

铺巨大的人力来进行内容审核,肯定不是长久之计。尤其是对于科技企业,其发展的核心秘诀,就是使用机器,替代人类。因为机器可以不分昼夜的工作,不需要福利,不需要保障。机器,是一个生意可以被规模化的核心。

可至今为止,Facebook的技术水平,根本无法做到让机器自动解决这个问题。其中一个最典型的“笑话”是:Facebook的算法,曾经错误地将美国的《独立宣言》,标记为宣扬仇恨的言论。Facebook的工程师们大失惊色,赶紧查看怎么回事儿,发现原因在于,《独立宣言》中有“无情的印第安野蛮人”(merciless Indian savages)这样的一段描述。

我在这个专栏的另一篇文章,《新西兰恐袭,疯狂删帖的小编,背锅的算法工程师,以及“技术优越主义”》中,曾向大家介绍过,鉴别什么是仇恨言论,还不是属于这个时代的技术。同样的,鉴别什么是假新闻,也不是这个时代的技术。

在美国的听证会上,当被问及是否可能靠 AI 自动审核判别新闻是否有害时,扎克伯格的回答是:还需要5-10年的时间。很有可能,这是一个非常乐观的数字。

图片来源自华盛顿邮报

7.

在剑桥分析事件中,折射出的另外一个很重要的问题是:什么叫隐私。

名字,性别,职业,工作单位,qq号,电话号码,婚姻状态,这些都叫隐私,没有问题。

但是,你喜欢去某家超市买菜,叫不叫隐私呢?你喜欢吃海鲜胜过牛羊肉,叫不叫隐私呢?你觉得 hello kitty 比想要当海贼王的路飞更可爱,叫不叫隐私呢?你喜欢格子衫,讨厌牛仔裤,叫不叫隐私呢?

在通常的意义上,这些不太叫隐私。但是,剑桥分析告诉我们,只要收集足够多的关于你的这种数据(行为数据),就可以相当准确的推算出你的隐私。包括你的性别,工作性质,婚姻状态,政治倾向,性取向,等等等等。

换句话说,由于技术的发展,我们对隐私的定义很有可能要发生改变。这些,可能都将成为我们的隐私。

但问题是,如果这些都是你的隐私的话,只要你上网,你的这些“隐私”数据,就会不可避免的,保留在互联网上,被互联网企业所拥有。你查看新闻的纪录,频率,时间;你购买的产品类别,花费的金钱;你在搜索引擎上查找的关键字;你在社交网络上的聊天时间,聊天记录;你浏览了什么网站,使用了什么app…

换句话说,如果你重新定义了自己的隐私的话,生存和保护隐私,将成为鱼和熊掌不可兼得的事情。如今,近乎一切社会活动都离不开互联网。生存,近乎就等于是暴露自己的隐私。

而这本身也是我们可以免费享受这些互联网服务的根本原因。近乎所有的互联网免费服务,都是依靠广告生存的。怎么提高广告效率?就是挖掘这些用户的“隐私”,才可以想尽办法进行广告的精准投放。如果大家真的要保护自己的这些“隐私”,我们现在所使用的大多数互联网服务的商业模式将不复存在。

8.

这些问题,在西方社会,已经引起了极大的讨论。

在中国,虽然李彦宏说,中国人民更加开放,更加愿意用隐私换取效率。但关键问题可能并不是效率,而是在很多根本性问题上,人类社会的发展,有些跟不上技术发展了。

在这篇文章中,我带领大家回顾了过去几年,Facebook所遭遇的困境。其中的事实梳理,其实还有很多可以补充的地方。但这些事实其实并不是我关注的重点,重点在于,我希望大家可以思考:

1)到底什么是可信赖的新闻;

2)一个平台,到底怎么做,才能保持新闻中立?甚至新闻中立,是不是一个永远不可能的梦想?;

3)如果人工智能算法不具备可解释性,是不是意味着在很多领域,我们不能使用人工智能算法?即使这些算法可以带来效率上的提高;

4)在一个技术水平还不能有效地大规模辨别不良信息的时代,大规模的不良信息却已经出现了,怎么办?

5)在新的时代,到底什么是隐私?隐私到底有没有可能被保护?

这些问题,都不是技术问题,却都是技术,带给这个时代的全新挑战。

我们可能在短时间内并不能找到这些问题的答案,但是我相信,如果所有人,都或多或少地思考一下这些问题所带来的影响,那么,也将带领我们,更快地填补这些“技术和社会之间的裂痕”。

大家加油!:)

评论

此博客中的热门博文

知识掌握的七个境界

旧金山禁掉了人脸识别技术?人脸识别招谁惹谁了?