数据收集, 推荐系统和社交困境

写这篇文章的起因有两个. 一方面, 早在建号之初就想写点科普. 但是一直没有找到好的选题. 一直想写计算理论相关的内容, 这是我在计算机里最喜欢的学科. 但是太数学了怕大家看不懂跑了. 这次找到好的题目就决定动手试试.

另一方面社交困境确实是我们正在面临的一个问题. 我前两个月在网飞看了同名纪录片 “社交困境”/“The Social Delimma”. 基本上是阐述了各大科技公司收集我们的数据后如何用推荐系统给每个人精心雕琢一个信息茧房. 然而我不太喜欢的是这部纪录片的整体风向是批判技术的. 如果不是对技术有一些了解你可能看完了惊恐的惶惶不可终日. 所以决定用我自己的视角写一写同样的话题.

颇为讽刺的是, 我刚看完这部片, 网飞立刻给我推荐了另一部批判技术, 甚至有点阴谋论的纪录片介绍 Cambridge Analytica 这家公司如何用信息茧房来操纵英国脱欧和特朗普的选举. 片名就不说了, 因为如果 “社交困境” 是事实正确但是导向有点偏颇的话, 后来给我推的这部我个人觉得只有部分事实是成立的, 而更多的是没有证据的暗示.

网飞在2020年底推出了一个纪录片形式的喜剧 “Death to 2020”, 在总结新冠和选举问题的时候再一次把矛头指向了信息茧房. 其中很有意思的一段话:

-”两极化 是我们时代的问题. 不仅仅是美国, 全世界都是. 无论你讨论的是特朗普, 脱欧, 科学, 要命的性别争议, 甚至是事实本身: 没有两个派系是能互相认同, 或者互相否定的, 他们不能求同存异, 甚至不能认识到两者的争议其实是有共同点的.”
-“我不确定我同意你的观点”
-“滚你妈的”

2021年震惊全世界的国会山冲击案以及其背后的论坛Parler再次把大家带到这个社交困境之前. 特朗普被光速封号, Parler被下架, AWS拒绝提供服务. 一系列事件大家叫好的同时, 只有少数人开始警醒, 我们的根本问题是什么? 如何破除信息茧房? 谁来决定谁能说什么, 谁能看到谁在说什么?

然后先补充一个disclaimer. 这篇文章是当paper的标准写的, citation基本该有的都有, 也请内行外行的朋友做过了peer review确认了事实性和可读性. 但是第一次写科普, 如果citation缺了还是有望宽恕和指正. 另外我的主要科研工作也不是推荐系统, 所以可能在事实上有些偏差, 还望各位学术圈的朋友海涵.

坐和放宽, 我们要开始了.

数据收集

如果说互联网界收集用户数据的起源, 大概就是AB测.

AB测这个概念并不复杂, 假设你有一个产品. 你说不准要用甲方提的五颜六色的大气黑还是乙方提的低调奢华烫金粉. 所以你把两种产品都做出来了, 随机的发放给A组用户和B组用户, 收集他们的反馈. 让用户来决定什么是好设计.

AB测可以说是链接艺术设计和数据科学的突破性发明. 以后再也不用和甲方argue谁的设计更好了, 我的设计用户更喜欢, 话题终止. 在互联网领域最早2000年的时候谷歌就用AB测来测试一个页面放置多少结果是最佳的.

不过在互联网领域有一个问题. 实体产品卖出去了你可以追着用户问他喜不喜欢, 互联网产品用完关掉了或者压根不去填写你的问卷. 这个时候最简单的方法产生了: 我记下来你在这个产品上都干了啥就好了嘛.

想知道一页放多少结果? 记一下多少用户点了前三, 前五, 前十个结果.
想知道哪个按钮设计好? 记一下多少用户点了这个按钮, 多少用户没点.
想知道新出的poster好不好看? 记一下用户在这个页面停留了多久.
……

推荐系统

小学二年级(真不是毕导那个小学)我们就做过一种数学题: 找规律填数字.

2, 4, _, 8

大家都知道中间填6. 非常过拟合的说, 推荐系统就这么回事儿.

好我来把问题复杂一下.

2, 4, _, _
_, 6, 8, _
8, _, _, 14

你大概也猜到了, 每个元素都是前一个+2, 行首元素是上一行*2. 你发现有点难猜了, 有点生气, 这都和推荐系统有半毛钱关系!

那我举一个实际生活中的例子. Alice, Bob, Charlile都对魔戒1, 2, 3, 霍比特人1, 2, 3有一个五分制的评分.

Alice Bob Charlile
魔戒1 5 1
魔戒2 4 2
魔戒3 3 2
霍比特人1 5 4
霍比特人2 4 3
霍比特人3 4 3

请问Bob和Charlile分别会怎么评价霍比特人和魔戒? 虽然得不出精确的评分, 你大概也知道Bob似乎对中土世界无感, 而可以对Charlile安利一下魔戒系列.

似乎也不是那么困难吗, 现在你已经了解了推荐系统的基本构造了, 来帮我们写一个推荐系统吧:

现在你有17,770部电影和480,189个用户, 他们总共给出了100,480,507个评分. 快来帮帮我们吧(手动狗头)

很复杂吗? 这是网飞的公开挑战. 09年一支叫”BellKor’s Pragmatic Chaos”的队伍摸走了100万美刀的奖金. 12年前的事情了, 想不到吧?

现在的推荐系统已经要比以前复杂的多. 数据量比以前大很多. 腾讯, 阿里, 字节的用户基数都是上亿的, 这四五十万用户比起来就是个弟弟. 这个矩阵也不再是横向用户纵向作品, 推荐不再基于用户的评分. (刷个抖音谁还评分啊) 而是基于点赞, 观看时长, 用户评论等数据.

上文提到的数据收集, 想起来了?

社交困境

Related