似研究发现,在他们所测试的45种职业中,女性在谷歌图像搜索中出现的比例偏低,其中CEO的比例最为悬殊:美国27%的CEO是女性,但在谷歌图像的搜索结果中,女性只占11%。[38]搜索“作家”的结果也是不平衡的,谷歌图片中只有25%的搜索结果是女性,相比之下,美国作家中女性的实际占比有56%,研究还发现,至少在短期内,这种差异确实影响了人们对某个领域性别比例的看法。当然,对于算法来说,影响会更长远。
这些数据集不仅未能充分代表女性,而且歪曲了她们的形象。2017年一项对常用文本语料库的分析发现,女性的名字和相关用词(“妇女”“女孩”等)与家庭的关系大于与职业的关系,而男性的情况正好相反。[39]2016年,一项基于谷歌新闻的流行公共数据集分析发现,与女性相关的最热门职业是“家庭主妇”,与男性相关的最热门职业是“名家大师”。[40]与性别相关的十大职业还包括:哲学家、社交名人、队长、前台接待员、建筑师和保姆——你可以自行猜测,哪些是男性,哪些是女性。2017年的图像数据集分析还发现,图像中包含的活动和物体表现出“明显的”性别偏见。[41]研究人员之一马克·亚茨卡尔预见了这样一种未来:如果机器人是通过这些数据集来训练的,当它不确定人们正在厨房里做什么的时候,它就会“给一个男人一杯啤酒,让一个女人帮忙洗碗”。[42]
这些文化成见可从现已广泛使用的人工智能技术中找到。例如,斯坦福大学的教授隆达·席宾格想把报纸对她的采访从西班牙语译成英语,而谷歌翻译和Systran翻译系统都反复使用男性代词指代她,尽管文中出现了像profesora(女教授)这类明显指代女性的术语。[43]谷歌翻译还在将土耳其语译成英语时,赋予了原本性别中立的句子刻板成见的意味。Obirdoktor的意思是“她/他是一个医生”,但被翻译成“他是一个医生”,而Obirhemsire(意思是“她/他是一个护士”)被译成“她是一个护士”。研究人员发现,翻译软件在将芬兰语、爱沙尼亚语、匈牙利语和波斯语译成英语时,也出现了同样的现象。
好消息是我们现在有了这些数据——但程序员们是否会用这些数据来修正他们偏向男性的算法还有待观察。我们希望他们会,因为机器不仅能反映我们的偏见,有时还会放大它们——而且是大幅放大。2017年的图像研究显示,女性出现在烹饪相关图片中的可能性至少比男性高33%,但以这个数据集为基础训练的算法将厨房图片与女性联