每日精选AI研究论文及翻译
大型语言模型(LLMs)以其在各种应用中无与伦比的文本生成能力成为一项开创性技术。然而,人们仍然对其生成内容的准确性和适当性表示关注。一种当代方法论,即自我校正,被提出作为解决这些问题的方法。本文基于这一前提,对LLMs内部的自我校正在其中的作用和效力进行了批判性审视,阐明了其真正潜力和局限性。我们研究的核心是内在自我校正的概念,即LLMs尝试仅基于其固有能力校正其初始响应,而无需外部反馈的支持。在推理的背景下,我们的研究表明,LLMs在没有外部反馈的情况下很难自我校正其响应,有时甚至在自我校正后性能可能会下降。基于这些见解,我们为未来研究和实际应用在这一领域提出建议。
最近,已经开发了大量的条件图像生成和编辑模型,以服务于不同的下游任务,包括文本到图像生成、文本引导图像编辑、主题驱动图像生成、控制引导图像生成等。然而,我们观察到在实验条件方面存在巨大的不一致性:数据集、推理和评估指标的不同使公平比较变得困难。本文提出了ImagenHub,这是一个一站式库,用于规范所有条件图像生成模型的推理和评估。首先,我们定义了七个突出的任务,并为它们策划了高质量的评估数据集。其次,我们建立了统一的推理流程,以确保公平比较。第三,我们设计了两个人类评估分数,即语义一致性和感知质量,以及全面的评估生成图像的指南。我们训练专家评估员根据提出的指标评估模型输出。我们的人类评估在76%的模型上实现了较高的克里彭多夫α系数的工作者间一致性。我们全面评估了约30个模型,并观察到三个关键点:(1)现有模型的性能通常令人不满意,除了文本引导图像生成和主题驱动图像生成外,74%的模型的总体得分低于0.5。 (2)我们审查了已发表论文中的声明,发现83%的声明是成立的,但也有少数例外。 (3)除主题驱动图像生成外,现有的自动评估指标中没有一个具有高于0.2的斯皮尔曼相关性。未来,我们将继续努力评估新发布的模型,并更新我们的排行榜,以跟踪条件图像生成领域的进展。
链式思维(CoT)提示对语言模型在推理任务中展现出令人印象深刻的性能,但通常需要推理过程的标记示例。在这项工作中,我们引入了一种新的提示方法,即类比提示(Analogical Prompting),旨在自动引导大型语言模型的推理过程。受类比推理启发,这是一种认知过程,人类在解决新问题时会借鉴相关的过去经验,我们的方法提示语言模型在解决给定问题之前自动生成相关示例或知识。这种方法具有几个优点:它消除了标记或检索示例的需要,提供了通用性和便利性;它还可以根据每个问题定制生成的示例和知识,提供了适应性。实验结果表明,我们的方法在各种推理任务中表现优于0-shot CoT和手动少样本 CoT,包括 GSM8K 和 MATH 中的数学问题求解,Codeforces 中的代码生成,以及 BIG-Bench 中的其他推理任务。
最近的大型语言模型(LLMs)展示了对智能代理和下一代自动化的巨大潜力,但目前缺乏一个系统化的基准来评估LLMs作为代理的能力。我们介绍了SmartPlay:一个具有挑战性的基准和评估LLMs作为代理的方法论。SmartPlay包括6种不同的游戏,包括石头剪刀布、汉诺塔、Minecraft等。每个游戏都拥有独特的设置,提供高达20个评估设置和无限的环境变化。SmartPlay中的每个游戏都独特挑战智能LLM代理的9种重要能力子集,包括推理对象依赖关系、提前规划、空间推理、从历史中学习以及理解随机性。每个游戏测试的能力子集之间的区别使我们能够单独分析每种能力。SmartPlay不仅作为评估LLM代理整体性能的严格测试平台,还作为识别当前方法学中存在差距的路线图。我们在github.com/LLMsmartplay/SmartPlay发布了我们的基准。