每日精选AI研究论文及翻译
尽管开源大型语言模型(LLM)及其变种,例如LLaMA和Vicuna,取得了显著进展,但它们在执行更高级任务方面仍然存在明显局限,例如遵循人类指令以使用外部工具(API)。这是因为当前指令调整主要集中在基本语言任务上,而非工具使用领域。这与最先进的LLM(如ChatGPT)形成对比,后者展示出出色的工具使用能力,但遗憾的是它们是闭源的。为了在开源LLM中实现工具使用能力,我们引入了ToolLLM,这是一个通用的工具使用框架,包括数据构建、模型训练和评估。我们首先提出了ToolBench,这是一个用于工具使用的指令调整数据集,通过使用ChatGPT自动生成。具体而言,我们从RapidAPI Hub收集了16,464个涵盖49个类别的真实世界RESTful API,然后提示ChatGPT生成涉及这些API的多样人类指令,涵盖单工具和多工具场景。最后,我们使用ChatGPT为每个指令搜索有效解决方案路径(API调用链)。为了使搜索过程更高效,我们开发了一种基于深度优先搜索的决策树(DFSDT),使LLM能够评估多个推理轨迹并扩展搜索空间。我们展示了DFSDT显著增强了LLM的规划和推理能力。为了进行高效的工具使用评估,我们开发了一个自动评估器:ToolEval。我们在ToolBench上对LLaMA进行微调,得到了ToolLLaMA。我们的ToolEval显示,ToolLLaMA表现出执行复杂指令和泛化到未见API的显著能力,并且表现与ChatGPT相当。为了使流程更加实用,我们设计了一个神经API检索器,为每个指令推荐适当的API,消除了手动API选择的需要。
本研究旨在降低大型语言模型(LLMs)的端到端生成延迟。高生成延迟的主要原因之一是几乎所有最先进的LLMs都采用的顺序解码方法。在本研究中,受到人类思考和写作过程的启发,我们提出了“思维骨架”(SoT),它指导LLMs首先生成答案的骨架,然后进行并行API调用或批量解码以并行完成每个骨架点的内容。SoT不仅提供了相当大的加速(在11种不同的LLMs中高达2.39倍),而且还有可能在多个问题类别上改善答案质量,包括多样性和相关性。SoT是为了效率而进行的数据中心优化的初步尝试,并揭示了将LLMs推动更像人类思考以提高答案质量的潜力。
人类反馈强化学习(RLHF)是一种训练人工智能系统与人类目标一致的技术。RLHF已成为调整最先进大型语言模型(LLMs)的核心方法。尽管如此,公开系统化其缺陷的工作相对较少。本文(1)调查RLHF及相关方法的开放问题和基本限制;(2)概述了了解、改进和补充RLHF的技术在实践中的应用;以及(3)提出审计和披露标准,以改善社会对RLHF系统的监督。我们的工作强调了RLHF的限制,并突出了以多方面方法开发更安全人工智能系统的重要性。
医学本质上是一个多方面的领域,需要综合各种模态的信息。医学生成式视觉语言模型(VLMs)迈出了朝着这个方向迈出的第一步,并承诺许多令人兴奋的临床应用。然而,现有模型通常需要在庞大的下游数据集上进行微调,这构成了一个重要限制,因为在许多医学应用中,数据稀缺,需要能够从少量实例中实时学习的模型。在这里,我们提出了Med-Flamingo,这是一种适用于医学领域的多模态少样本学习器。基于OpenFlamingo-9B,我们继续在医学图像文本数据(来自出版物和教科书)上进行配对和交织的预训练。Med-Flamingo解锁了少样本生成式医学视觉问答(VQA)能力,我们在包括一个新颖的具有挑战性的开放式VQA数据集(包含视觉USMLE风格问题)在内的多个数据集上进行评估。此外,我们进行了首次针对生成式医学VQA的人类评估,医生们在交互式应用程序中审查问题和盲目生成。Med-Flamingo在医学VQA的生成性能中提高了高达20\%的临床评分,并首次实现了多模态医学少样本适应,如理由生成。我们在https://github.com/snap-stanford/med-flamingo上发布了我们的模型、代码和评估应用程序。
在一个联合的视觉-语言空间中,文本特征(例如,“一张狗的照片”)可以有效地表示其相关的图像特征(例如,来自狗的照片)。受此启发,我们提出了PromptStyler,通过合成各种风格来模拟联合空间中的各种分布转移,而无需使用任何图像来处理无源领域泛化。我们的方法学习生成各种风格特征(例如,“一个S*风格的a”),通过可学习的伪词S*的风格词向量。为了确保学习到的风格不会扭曲内容信息,我们强制要求风格-内容特征(例如,“一个S*风格的a[class]”)在联合视觉-语言空间中与其相应的内容特征(例如,“[class]”)附近。在学习风格词向量后,我们使用合成的风格-内容特征训练线性分类器。尽管不需要任何图像,并且仅使用单个GPU进行训练大约30分钟,PromptStyler在PACS、VLCS、OfficeHome和DomainNet上取得了最先进的成果。
我们提出了一种方法论,用于在自回归语言模型中植入水印,这些水印对扰动具有鲁棒性,而不改变文本的分布,直到达到一定的最大生成预算。我们通过将一系列随机数(使用随机化水印密钥计算)映射到语言模型的样本来生成带水印的文本。要检测带水印的文本,任何知道密钥的一方都可以将文本与随机数序列对齐。我们使用两种抽样方案实例化了我们的水印方法:逆变换抽样和指数最小抽样。我们将这些水印应用于三个语言模型 — OPT-1.3B、LLaMA-7B 和 Alpaca-7B — 以实验验证它们的统计能力和对各种释义攻击的鲁棒性。值得注意的是,对于 OPT-1.3B 和 LLaMA-7B 模型,我们发现即使在通过随机编辑(即替换、插入或删除)破坏了 40-50% 的标记后,我们仍然可以可靠地检测到带水印的文本(p ≤ 0.01)从 35 个标记。对于 Alpaca-7B 模型,我们对响应典型用户指令的水印化可行性进行了案例研究。由于响应的熵较低,检测更加困难:大约 25% 的响应(中位长度约为 100 个标记)可以以 p ≤ 0.01 检测到,而且水印对我们实施的某些自动释义攻击也不太鲁棒。
指导调整已经成为增强大型语言模型以遵循人类指令的一种有前途的方法。研究表明,在训练数据中增加指令的多样性和数量可以持续增强泛化性能,这有助于最近的一项努力,即收集各种指令并将现有的指导调整数据集整合到更大的集合中。然而,不同用户有其独特表达指令的方式,不同数据集之间指令风格和格式存在变化,即格式不一致。在这项工作中,我们研究了格式不一致如何影响指导调整的性能。我们提出了一个名为“统一指导调整”(UIT)的框架,该框架调用OpenAI API在不同的指导调整数据集之间进行自动格式转换。我们展示了UIT成功提高了对未见指令的泛化性能,突显了格式一致性对指导调整的重要性。为了使UIT框架更实用,我们进一步提出了一种基于困惑度的去噪方法,以减少自动格式转换的噪声。我们还训练了一个较小的离线模型,其具有与OpenAI API相当的格式转换能力,以在实践中降低成本。
随着隐式神经表示或神经辐射场(NeRF)的流行,迫切需要编辑方法与隐式3D模型进行交互,用于后期处理重建场景和3D内容创作等任务。尽管先前的研究从不同角度探讨了NeRF编辑,但在编辑灵活性、质量和速度方面存在限制,无法提供直接的编辑响应和即时预览。关键挑战在于构想一种可在本地进行编辑的神经表示,能够直接反映编辑指令并实时更新。为了弥合这一差距,我们提出了一种新的交互式编辑方法和系统,名为Seal-3D,允许用户以像素级和自由方式编辑NeRF模型,采用广泛的类似NeRF的骨干,并即时预览编辑效果。为实现这些效果,我们提出了代理函数,将编辑指令映射到NeRF模型的原始空间,并采用师生训练策略,进行本地预训练和全局微调。构建了一个NeRF编辑系统,展示了各种编辑类型。我们的系统可以以约1秒的交互速度实现引人注目的编辑效果。