每日精选AI研究论文及翻译
随着大型语言模型(LLMs)展示出在许多领域和任务中的强大能力,包括上下文理解、代码生成、语言生成、数据叙事等,许多数据分析师可能会担心他们的工作会被人工智能取代。这个有争议的话题引起了公众的广泛关注。然而,我们仍处于意见分歧的阶段,没有得出明确结论。受此启发,我们在本研究中提出了一个研究问题:“GPT-4是否是一名优秀的数据分析师?”并旨在通过进行一对一的比较研究来回答这个问题。具体而言,我们将GPT-4视为一名数据分析师,利用来自各个领域的数据库进行端到端数据分析。我们提出了一个框架来解决这些问题,通过精心设计GPT-4的提示来进行实验。我们还设计了几个任务特定的评估指标,以系统地比较几位专业的人类数据分析师和GPT-4之间的表现。实验结果表明,GPT-4可以达到与人类可比较的表现。我们还对结果进行了深入讨论,以启示进一步研究,然后得出结论:GPT-4可以取代数据分析师。
随着最近在实际环境中出现大型语言模型(LLMs),拥有能够有效检测事实不一致性的方法对于减少错误信息传播并提高模型输出的信任至关重要。在现有的事实一致性基准测试中,我们发现一些大型语言模型(LLMs)在事实不一致性检测分类基准测试上表现出色,与传统非LLM方法相比。然而,更详细的分析揭示了大多数LLMs在任务更复杂的表述上失败,并暴露了现有评估基准测试存在的问题,影响了评估精度。为了解决这个问题,我们提出了一个新的不一致性检测基准测试创建协议,并在一个名为SummEdits的包含10个领域的基准测试中实施。这个新基准测试每个样本的成本比以前的基准测试低20倍,并且高度可重复,我们估计注释者间的一致性约为0.9。大多数LLMs在SummEdits上表现不佳,性能接近随机选择。表现最佳的模型GPT-4,仍然比估计的人类表现低8\%,突显了LLMs在推理事实和检测不一致性方面的能力差距。
开放世界生存游戏对AI算法提出了重大挑战,因为它们需要多任务处理、深度探索和目标优先级要求。尽管强化学习(RL)在解决游戏方面很受欢迎,但其高样本复杂性限制了其在复杂的开放世界游戏(如Crafter或Minecraft)中的有效性。我们提出了一种新方法,名为SPRING,通过阅读游戏的原始学术论文并利用所学知识来推理和玩游戏,采用了一个大型语言模型(LLM)。在以LaTeX源代码作为游戏背景和描述代理当前观察的情况的情况下,我们的SPRING框架采用了一个带有游戏相关问题作为节点和依赖关系作为边的有向无环图(DAG)。我们通过遍历DAG并按拓扑顺序计算每个节点的LLM响应来确定在环境中采取的最佳行动,LLM对最终节点的回答直接转化为环境行动。在我们的实验中,我们研究了在Crafter开放世界环境设置下,不同形式提示下引发的上下文“推理”的质量。我们的实验表明,当LLM以一致的思维链提示时,在完成复杂的高级轨迹方面具有巨大潜力。定量上,使用GPT-4的SPRING胜过所有最先进的RL基线,在进行100万步训练的情况下,无需任何训练。最后,我们展示了游戏作为LLM测试平台的潜力。
尽管神经机器翻译(NMT)代表着机器翻译(MT)的主导方法,但NMT模型的输出仍需要翻译后编辑以纠正错误并提高质量,尤其是在关键环境下。在这项工作中,我们将使用大型语言模型(LLMs)正式规范翻译后编辑任务,并探索使用GPT-4自动对多种语言对的NMT输出进行后编辑。我们的结果表明,GPT-4擅长翻译后编辑,并且即使目标语言不是英语,也能产生有意义的编辑。值得注意的是,我们利用基于GPT-4的后编辑,在WMT-22英中、英德、中英和德英语言对上实现了最先进的性能,经过最先进的MT质量指标评估。
诸如思维链提示等策略通过将输入示例分解为中间步骤来提高大型语言模型(LLMs)在复杂推理任务上的性能。然而,如何将这些方法应用于对长输入文档进行推理仍不清楚,因为在长文档中,无论是分解还是每个中间步骤的输出都不容易获得。在这项工作中,我们提出了PEARL,这是一个提示框架,旨在改善对长文档的推理,包括三个阶段:动作挖掘、计划制定和计划执行。更具体地,给定关于长文档的问题,PEARL将问题分解为一系列动作(例如,总结、查找事件、查找关系),然后在文档上执行这些动作以获得答案。PEARL的每个阶段都是通过零提示或少提示LLMs(在我们的工作中,是GPT-4)实现的,人类输入很少。我们在QuALITY数据集的一个具有挑战性的子集上评估了PEARL,该数据集包含需要对长叙述文本进行复杂推理的问题。PEARL在该数据集上优于零提示和思维链提示,并且消融实验表明PEARL的每个阶段对其性能至关重要。总体而言,PEARL是利用LLMs对长文档进行推理的第一步。