雷锋网AI科技评论按:斯坦福大学ChristopherD.Manning组的论文《AnsweringComplexOpen-domainQuestionsThroughIterativeQueryGeneration》(通过迭代生成查询语句回答复杂开放领域问题)近期被EMNLP-IJCNLP接收,论文第一作者PengQi为这个任务以及这篇论文撰写了一篇深入浅出的解读文章。雷锋网AI科技评论全文翻译如下。本文主题:NLP研究大家庭已经在开放领域问答中取得了很大进步,而这篇论文中提出的系统继续在「基于海量文本回答复杂问题」的情境下带来了改进。作者们展示了一种高效、可解释的方法,能在系统中进行多步推理。从搜索引擎,一直到自动问答系统,自然语言处理(NLP)系统的发展已经极大地增强了我们获取文本信息的能力,帮我们节省了很多用来记忆和查找的时间精力。今天,每当我们脑海中涌现出问题的时候,我们的第一反应都是去搜索引擎(谷歌、百度、必应)上搜索一下。有的问题比较简单,比如「中国面积最大省是什么省」,也有一些问题就不那么直白了,比如「第一个发现可以用GPS探测地震波的人是谁」,各家搜索引擎都很难直接给出这个问题的答案。这种时候我们需要借助网络上的电子百科全书,比如Wikipedia,然后就可以看到第一个发现可以用GPS探测地震波的人是美国科学家KristineLarson博士。如果能让NLP系统直接给出这个答案,而不需要我们去知识库中翻文章寻找答案,这个问题就叫做开放领域问答(open-domainQA),这也是NLP科研的一个热点任务。开放领域问答的背景在开始介绍开放领域问答的新方法之前,我们先花一点时间了解一下这个问题的环境设置、挑战,以及为什么现有的系统在回答复杂问题的时候不那么让人满意。开放领域vs封闭领域/内容限定NLP研究人员们设计的早期的问答系统,比如BASEBALL和LUNAR,都是高度领域限定的。这两个系统分别可以回答美国在某年的棒球运动员的信息,或者返回地球的登月飞船的信息,但是对所有其它领域的信息都无能为力,因为超出了设计的领域范围。也就是说,这两个系统是封闭领域的。从此之后,研究人员们开始向开放领域问答的方向进攻。对于开放领域问答,所提出的问题并不局限于预定义好的领域和领域知识。在理想情况下,问答系统要有能力在很大规模的各个领域的文本中进行探索筛选,找到我们所需的答案。单篇文档开放领域问答,有时候也被称为「阅读理解」,NLP研究人员们这几年来在这个问题上做出了显著突破。这个问题指,给NLP系统指定单篇文档,或者只是一段文字,其中可能含有问题的答案,然后让系统根据这些文本回答问题。这就是以SQuAD为代表的许多流行的NLP问答数据集的基本格式。在SQuAD数据集上训练出的问答系统可以在描述各种不同领域的知识的文本上工作。不过这样的问答系统需要我们首先找到可能含有答案的那篇文档(那段文字),这也就带来了一些限制。为了解决这个问题,研究人员们开始研究能在大量文本上工作的问答系统。相比于SQuAD代表的「从含有答案的一段文本里找到答案」,在大量文本上工作的系统需要在一批文档中进行筛选,最终找到答案;这和我们使用搜索引擎有类似之处。这种任务设置就被成为开放内容开放领域问答(open-contextopen-domainQA),就比阅读理解有挑战得多。当然了,当你想到了一个问题,却不知道要从哪里寻找答案的时候,开放领域问答也就比阅读理解有用得多。在内容限定的问答之外的新挑战主要在于如何用可拓展的方法把大量文本缩小到一个能够处理的范围,这样我们就可以用现有的阅读理解模型找到那个答案。开放领域问答系统受到文本检索会议(TREC)上的系列问答竞赛启发,近几年来研究人员们开始场尝试把具有很大潜力的基于神经网络的问答模型用在开放领域问答任务中。普林斯顿大学陈丹琦团队首先把传统的搜索引擎和现代的神经问答系统相结合来处理这个问题。他们的开放领域问答方案名为DrQA(
转载请注明:http://www.aierlanlan.com/rzdk/9584.html