每日精选AI研究论文及翻译
如今,大型语言模型(LLMs)通过展示工具的使用方式来学习使用新工具。不幸的是,获取这些展示很困难,如果选择了错误的展示,可能会导致不良的偏见使用。即使在罕见的情况下展示很容易获取,也没有原则性的选择协议来确定要提供多少个展示以及哪些展示。随着任务变得更加复杂,选择搜索呈组合增长,变得难以处理。我们的工作提供了一种替代展示的方法:工具文档。我们主张使用工具文档,即对个别工具使用的描述,而不是展示。我们通过跨视觉和语言模态的6个任务的三个主要实证发现来证实我们的说法。首先,在现有基准上,仅凭借工具文档的零样本提示就足以引出正确的工具使用,达到与少样本提示相当的性能。其次,在一个新收集的现实工具使用数据集中,有数百个可用工具API,我们展示了工具文档比展示更有价值,零样本文档明显优于没有文档的少样本。第三,我们通过使用刚发布的看不见的最先进模型作为工具,解决图像生成和视频跟踪问题,突出了工具文档的好处。最后,我们强调了使用工具文档自动启用新应用的可能性:仅通过使用GroundingDino、Stable Diffusion、XMem和SAM的文档,LLMs就可以重新发明刚发布的Grounded-SAM和Track Anything模型的功能。
最近在大型语言模型(LLMs)方面取得的进展,尤其是链式思维(CoT)提示的发明,使得解决推理问题成为可能。然而,即使是最强大的LLMs仍然在需要非线性思维和多步推理的更复杂问题上挣扎。在这项工作中,我们探讨了LLMs是否具有识别自身错误的能力,而无需借助外部资源。具体来说,我们调查它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零-shot验证方案来识别这类错误。然后,我们利用这个验证方案来提高问答性能,通过在不同生成的答案上进行加权投票来实现。我们在三个数学数据集-GSM8K、MathQA和MATH上测试了这种方法,并发现它成功识别错误,并进而提高了最终的预测性能。
我们考虑如何通过一种新颖的提示策略,在大型语言模型(LLMs)中引发组合泛化能力的问题。组合泛化赋予LLMs解决比它们所见过的更难的问题的能力(即易到难的泛化),这是类似人类智能的关键推理能力。然而,即使是当前最先进的LLMs仍然在这种推理形式上遡步难行。为了弥合这一差距,我们提出了上下文技能(SKiC)提示,指导LLMs如何组合基本技能来解决更复杂的问题。我们发现,在同一提示上下文中展示技能和组合示例是至关重要的。通过仅有两个示例,我们的SKiC提示激发了技能和它们的组合能力之间的强大协同作用。值得注意的是,它赋予LLMs解决需要创新技能组合的未见问题的能力,在各种具有挑战性的组合任务上实现了近乎完美的泛化。有趣的是,SKiC提示释放了LLMs的潜在潜力,使它们能够利用在早期预训练阶段获得的内部技能,即使这些技能在提示上下文中没有明确呈现。这导致LLMs能够通过激活和组合内部能力来解决未见的复杂问题。凭借这些显著特点,SKiC提示能够在具有挑战性的数学推理基准测试(例如MATH)上取得最先进的性能。
自监督学习是深度学习中一种有前途的范式,它通过构建需要学习有用表示的假任务,使模型能够从无标签数据中学习。在自然语言处理中,主要的假任务是掩码语言建模(MLM),而在计算机视觉中存在一个类似的任务叫做掩码图像建模(MIM)。然而,MIM 面临挑战,因为它需要准确预测语义内容的位置。例如,给定一张不完整的狗的图片,我们可以猜测有一个尾巴,但无法确定其确切位置。在这项工作中,我们提出了 FlexPredict,这是一个能够解决这一挑战的随机模型,它将位置不确定性纳入模型中。具体而言,我们将模型条件设置为随机掩码标记位置,以引导模型学习更能抵抗位置不确定性的特征。我们的方法提升了各种任务的下游性能,例如,与 MIM 基线相比,FlexPredict 在使用 ViT-B 进行 ImageNet 线性探测时提高了 1.6%,在使用 ViT-L 进行半监督视频分割时提高了 2.5%。
在区分生成文本和自然文本的任务变得越来越具有挑战性。在这种情况下,数字水印技术被提出作为一种将生成文本归因于特定模型的有前途的技术。它改变了采样生成过程,以在生成的输出中留下看不见的痕迹,有助于后续检测。本研究基于三个理论和经验考虑,巩固了大型语言模型的水印技术。首先,我们引入了新的统计检验,提供了强大的理论保证,即使在低误报率(小于10^{-6})的情况下也仍然有效。其次,我们使用自然语言处理领域的经典基准比较了水印的有效性,深入了解它们在现实世界中的适用性。第三,我们为可以访问大型语言模型的情况以及多比特水印技术开发了先进的检测方案。