大快人心!维基百科利用AI标记网络恶意评论 键盘侠请好自为之

作者: 风沙程影 分类: 随心杂谈 发布时间: 2018-08-17 16:40

1

维基百科社区是一个免费的百科全书,它是建立在一个公开可编辑内容的模式之上的,但因其恶意评论而声名大降。这个问题非常严峻,导致活跃投稿人或编辑者——那些每月贡献一篇编辑文稿的人士——在8年的时间里下降了40%。支持维基百科的维基媒体基金会(Wikimedia Foundation,非营利组织)决定使用人工智能来更多地了解这个问题,并考虑如何解决这个问题。

与维基媒体基金会和Jigsaw合作以阻止恶意评论

为了阻止这些恶意攻击,维基媒体基金会与Jigsaw(科技孵化公司,前称为Google Ideas)合作开展了一项名为“排毒”的研究项目,该项目使用机器学习技术来标记可能造成人身攻击的评论。这个项目是Jigsaw创建开源人工智能工具用来帮助对抗社交媒体平台和网络论坛上的骚扰的计划的一部分。

该项目的第一步是使用来自维基百科谈话页面的10万条恶意评论进行训练机器学习算法,这些评论由一支4000人的团队识别,每个评论都由10个不同的人类评审员进行。这个带注释的数据集是有史以来最大的一个关于网络滥用的数据集。这不仅包括直接的人身攻击,还包括第三方和间接的人身攻击(“你很可怕”、“鲍勃是可怕的”、“莎莉说鲍勃很可怕”)。经过训练后,这些机器可以确定一条评论是否是一条涉及人身攻击的评论。

然后,项目组在2001年至2015年的14年间,对维基百科上6300万条英文评论进行了算法审查,以找出恶意评论的模式。他们的发现概述刊载在《 Ex Machina》论文名《个人攻击大规模出现》中:

1. 在所有被定性为恶意的评论中,超过80%的评论是由9000多人发表的,他们在一年内只发表了不到5条辱骂性评论。

2. 近10%的攻击性言论都是由34个用户发表的。

3. 匿名用户占维基百科所有评论的34%。

4. 超过一半的个人言论攻击是由注册用户实施的,尽管匿名用户发起个人攻击的可能性是注册用户的六倍。(注册用户是匿名用户的20倍。)

目标修订评价服务(ORES系统)

维基百科编辑人数大幅下降的另一个原因被认为是该组织复杂的官僚机构以及苛刻的编辑策略。对于初次投稿者/编辑者来说,在没有任何解释的情况下,一项完成的工作被毁掉是很常见的。他们希望使用ORES系统来对抗这种情况:这台机器就像一个编辑系统,由一种训练有素的算法提供支持,用来对修改和编辑的质量打分。维基百科的编辑们使用一个在线工具来标记过去编辑的例子,这就是这个算法如何被教导识别错误的严重性。ORES系统可以指导人类审阅最具破坏性的编辑,并确定错误的严重程度——新手的错误会被更恰当地视为无辜之举。

AI写维基百科文章

Google Brain中的一个团队教软件总结网页上的信息,并写一篇维基百科式的文章。事实证明,文本摘要比我们大多数人想象的要难。Google Brain让机器对内容进行的总结比之前的尝试略好一些,但在机器能够像人类那样有节奏、有才华地写作之前,还有很多工作要做。事实证明,我们还没有准备好让机器自动生成维基百科条目,但我们正在努力实现这一点。

尽管维基百科运营中的人工智能用例仍在优化中,但机器无疑可以帮助组织分析它们每天生成的大量数据。更好的信息和分析可以帮助维基百科创建成功的策略,以排除来自其社区的负面影响,并为其贡献者解决招聘问题。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!