LOADING

加载过慢请开启缓存 浏览器默认开启

Automated Fact Checking: Task formulations, methods and future directions 阅读笔记

标题

自动化事实核查:任务形式化、方法和未来方向

作者和出处

Department of Computer Science University of Sheffield, UK(英国谢菲尔德大学计算机科学系)

摘要

最近对错误信息的关注度增加,刺激了对事实核查的研究,即评估一个主张的真实性。对自动化这个任务的研究涉及多个学科,包括自然语言处理、机器学习、知识表示、数据库和新闻学。虽然已经取得了很大的进步,但在研究社区中,与事实核查相关的论文和文章往往是在彼此不了解的领域中发表的,使用的术语也不一致,从而阻碍了理解和进一步的进展。在本文中,我们调查了来自自然语言处理和相关学科的自动化事实核查研究,统一了论文和作者之间的任务形式和 methodologies。此外,我们还强调了证据作为它们之间的一个重要的区分因素,涵盖了任务形式和方法。最后,我们提出了未来自动化事实核查的自然语言处理研究的方向。

引言和结论

本文调查的结构如下:首先,我们在新闻背景下讨论事实核查,因为这将提供定义和关键术语的区别,这些术语将在后面的内容中多次使用。然后,我们接下来讨论自动化事实核查的先前研究,包括它们期望的输入、返回的输出以及在此过程中使用的证据。接着,我们概述了最常使用的数据集以及在这些数据集上开发和评估的模型。随后,我们讨论与自动化事实核查相关的工作,最后提出了未来自然语言处理研究的途径。

方法

在新闻行业的事实核查

In particular, verification is defined as “scientific-like approach of getting the fact and also the right facts”(验证被定义为获得事实和正确事实的科学方法)which often involves verifying the source, date and the location of materials.(通常包括验证来源,日期和材料的位置)
Fact-checking on the other hand “addresses the claim’s logic, coherence and context”(事实核查通常是涉及声明的逻辑,连贯性和上下文)
而”假新闻“这个词在2016年美国大选中被频繁使用来标记一些不与真实性有关的声明,如指代政治对立的媒体机构,因此,我们在本文中避免使用这个词。

走进自动事实核查

输入

事实核查的输入的格式和内容会影响证据的类型。一个比较流行的输入类型是主谓宾三元组,如(London, capital of, UK)。三元组流行的原因是它们可以利用现有知识库如Freebase进行验证。但是使用三元组包含了需要将文本,语音或者其他形式的声明转变为三元组。
而另一种输入是文本声明,这些声明通常是从较长的段落中构建的简短句子,目的是获得只包含与原始声明相关的上下文。

证据来源

用于事实核查的证据类型会影响事实核查系统可以生成的模型和输出。
首先考虑在预测声明的真实性时不使用除声明之外的其他证据。这种情况声明的真实性和声明的表层语义特征相挂钩。
也可以纳入其他元数据,如声明创作者,发言人信息和声明的媒体来源。
也可以使用知识图谱。使用知识图谱的限制是假设与声明相关的真实事实存在知识图谱中,但是将所有和声明相关的事实提前存入知识图谱中很困难。
也可以使用来自百科全书,政策文件,经核实的新闻和科学期刊等的文本。
FEVER中的证据不是提供的,必须从维基百科中检索。
也可以将以前的经事实核查的存储库拿来做事实核查,但是仅限库中有类似声明时才能用。
也可以利用社交网络上帖子的分布情况作为证据来推断内容的真实性。谣言真实性预测是通过评估用户与内容的互动和分布行为来预测内容中的主张是真是假。
证据来源通常是给定的,例如维基百科或者Freebase,因为这有助于开发和评估。

输出

事实核查最简单的模型是将一项声明标记为真或者假,作为二分任务。
在FEVER中,输出由两部分组成:一个三分类的标签,以及在前两个标签下的证据语句。

事实核查的数据集

FEVER

事实核查方法

大多数是有监督的。

个人感悟

如看。
郭继承