每日精选AI研究论文及翻译
本文介绍了指令遵循得分(IFS),这是一种检测语言模型遵循指令能力的度量标准。该度量标准具有双重目的。首先,IFS可用于区分基础模型和指令模型。我们对公开可用的基础模型和指令模型进行基准测试,并表明格式良好的响应与部分和完整句子的比率可以成为区分这两种模型类别的有效衡量标准。其次,该度量标准可用作指令调整的早停准则。我们计算了7B和13B LLaMA模型的监督微调(SFT)的IFS,表明模型在训练过程中相对早期学会遵循指令,并进一步的微调可能导致基础模型语义的变化。作为语义变化的示例,我们展示了模型预测的客观性,该客观性由辅助度量标准ObjecQA定义。我们表明,在这种特定情况下,当IFS趋于稳定时,语义变化最为显著。我们希望将指令调整分解为IFS和语义因素,开启更好可控的指令调整新趋势,并为设计查询基础模型的最小指令接口开辟可能性。
传统上,供应链运营涉及各种复杂的决策问题。在过去几十年里,供应链从计算方面获益匪浅,这使得从手工处理向自动化和成本效益优化的过渡成为可能。然而,业务运营者仍然需要花费大量精力向利益相关者解释和解读优化结果。受最近大型语言模型(LLMs)的进展启发,我们研究了这种颠覆性技术如何帮助弥合供应链自动化与人类理解和信任之间的鸿沟。我们设计了一个框架,接受纯文本查询作为输入,并输出有关潜在优化结果的见解。我们的框架并未放弃最先进的组合优化技术,而是利用它定量地回答假设情景(例如,如果我们针对特定需求使用供应商B而不是供应商A,成本会如何变化?)。重要的是,我们的设计不需要在某些情况下向LLMs发送专有数据,这可能会引发隐私问题。我们在微软云供应链中的一个真实服务器放置场景上展示了我们框架的有效性。在此过程中,我们开发了一个通用的评估基准,可用于评估LLM输出在其他场景中的准确性。
像GPT-4这样的大型语言模型在广泛文本数据训练下展现出跨通用任务的新兴能力,比如基本算术,尽管这些任务并未被无监督的下一个标记预测目标明确编码。本研究探讨了如何从随机初始化开始,小型transformers可以有效地学习加法、乘法和平方根等算术运算,利用下一个标记预测目标。我们首先证明传统训练数据对于算术学习并不是最有效的,简单的格式更改可以显著提高准确性。这导致随着训练数据规模的变化出现明显的相变,有些情况下可以通过与低秩矩阵补全的联系来解释。在之前的工作基础上,我们接着在包含中间步骤结果的思维链式数据上进行训练。即使在完全没有预训练的情况下,这种方法也显著地同时提高了准确性、样本复杂度和收敛速度。我们还研究了训练过程中算术和文本数据之间的相互作用,并检查了少样本提示、预训练和模型规模的影响。此外,我们讨论了长度泛化挑战。我们的工作强调了高质量、有启发性的数据的重要性,考虑了下一个单词预测目标的特定特征,以快速引出算术能力。
在图像-文本对上调整大型语言模型(LLM)已经实现了前所未有的视觉-语言多模态能力。然而,它们的视觉-语言对齐仅建立在图像级别上,缺乏区域级别对齐限制了它们对细粒度多模态理解的进展。本文提出在感兴趣区域上进行指导调整。关键设计是将边界框重新构造为空间指导的格式。由空间指导提取的交替序列的视觉特征和语言嵌入被输入到LLM,并在转换后的区域-文本数据上以指导调整格式进行训练。我们的区域级视觉-语言模型,命名为GPT4RoI,带来了超越图像级理解的全新对话和互动体验。 (1)可控性:用户可以通过语言和空间指导与我们的模型交互,灵活调整问题的细节级别。(2)容量:我们的模型不仅支持单区域空间指导,还支持多区域。这解锁了更多区域级多模态容量,如详细区域说明和复杂区域推理。(3)组合:任何现成的物体检测器都可以成为空间指导提供者,以从我们的模型中挖掘信息丰富的物体属性,如颜色、形状、材质、动作、与其他物体的关系等。代码、数据和演示可在https://github.com/jshilong/GPT4RoI 找到。
由于技术不对称,许多人被迫在一种他们识字水平较低的语言中使用网络。这些用户在第二语言(L2)中的书面文本通常包含大量受其母语(L1)影响的错误。我们提出了一种方法,用于挖掘L1和L2之间的音素混淆(L1说话者可能混淆的L2中的声音对)。然后将这些混淆输入到一个生成模型(双音素模型)中,用于合成产生受损的L2文本。通过人类评估,我们展示了双音素模型生成的损坏是合理的,且在网络上具有广泛覆盖。我们还使用这种技术(Phonetically Noised GLUE的FunGLUE)来损坏流行的语言理解基准SuperGLUE,并展示了当前最先进的语言理解模型表现不佳。我们还引入了一个新的音素预测预训练任务,有助于字节模型恢复接近SuperGLUE的性能。最后,我们还发布了FunGLUE基准,以促进在音素鲁棒语言模型领域的进一步研究。据我们所知,FunGLUE是第一个在文本中引入L1-L2交互的基准。
由于基础模型的出现,大型语言和视觉模型被整合以获得视觉字幕、对话、问题回答等多模态能力。尽管现有的多模态模型展示了出色的视觉理解和推理能力,但由于高质量指导调整数据的稀缺性,它们的局限性仍然大部分未被探索。为了拓展多模态能力的极限,我们提出了视觉指导调整(SVIT),通过构建包括160万对会话问题-回答(QA)和160万对复杂推理QA以及106,000个详细图像描述在内的320万视觉指导调整数据集。除了数据量之外,所提出的数据集还具有高质量和丰富多样性的特点,这是通过使用GPT-4提示丰富的图像手动注释生成的。我们凭经验证明,对SVIT上的多模态模型进行训练可以显著提高多模态性能,包括视觉感知、推理和规划。
最近的研究已经从实证角度分析了上下文学习,并表明在合成线性回归任务上训练的Transformer可以学会实现岭回归,即在容量足够的情况下是贝叶斯最优预测器[Aky\"urek等,2023],而具有线性自注意力且没有MLP层的单层Transformer将学会在最小二乘线性回归目标上执行一步梯度下降(GD)[von Oswald等,2022]。然而,这些观察背后的理论仍然知之甚少。我们从理论上研究了单层线性自注意力Transformer,它们在合成带有噪声的线性回归数据上进行训练。首先,我们数学上证明,当协变量来自标准高斯分布时,最小化预训练损失的单层Transformer将实现最小二乘线性回归目标上的一步GD。然后,我们发现改变协变量和权重向量的分布为非各向同性高斯分布对学到的算法有很大影响:预训练损失的全局最小化者现在实现了一步经过预条件处理的GD。然而,如果仅改变响应的分布,则对学到的算法影响不大:即使响应来自更一般的非线性函数族,预训练损失的全局最小化者仍然在最小二乘线性回归目标上实现一步GD。
在视觉机器人操作中,模仿学习的泛化为何如此困难?这个问题表面上很难解决,但从机器人的视角来看,环境往往可以分解为可数的变化因素,比如光照条件或摄像头的位置。从经验上看,对其中一些因素的泛化比其他因素更具挑战性,但现有研究对每个因素对泛化差距的贡献程度几乎没有提供明确的线索。为了回答这个问题,我们研究了模拟中的模仿学习策略以及在真实机器人上进行了基于语言的操作任务,以量化对不同(组合的)因素的泛化难度。我们还设计了一个新的模拟基准测试,包括19个任务和11个变化因素,以促进更可控的泛化评估。通过我们的研究,我们确定了一个基于泛化难度的因素排序,这个排序在模拟和我们的真实机器人设置中是一致的。
先进的人工智能模型为人类带来巨大好处的同时也伴随着风险,社会需要积极管理这些风险。在本文中,我们关注所谓的“前沿人工智能”模型:高度功能强大的基础模型,可能具有足以对公共安全造成严重风险的危险能力。前沿人工智能模型带来了独特的监管挑战:危险能力可能出乎意料地出现;难以坚固地防止已部署的模型被滥用;以及难以阻止模型的能力广泛扩散。为了解决这些挑战,至少需要三个用于监管前沿模型的基本要素:(1)标准制定流程,以确定前沿人工智能开发者的适当要求;(2)注册和报告要求,为监管机构提供对前沿人工智能开发过程的可见性;以及(3)机制,以确保遵守前沿人工智能模型的开发和部署安全标准。行业自律是重要的第一步。然而,需要更广泛的社会讨论和政府干预来建立标准并确保遵守这些标准。我们考虑了几种实现这一目标的选择,包括授予监管机构执法权力和前沿人工智能模型的许可制度。最后,我们提出了一套初始的安全标准。这些标准包括进行部署前的风险评估;对模型行为进行外部审查;使用风险评估来指导部署决策;以及监测和回应有关模型能力和部署后使用的新信息。我们希望这一讨论有助于更广泛地探讨如何平衡公共安全风险和人工智能开发前沿的创新益处。