每日精选AI研究论文及翻译
我们发现,仅通过一种采样和投票方法,大型语言模型(LLMs)的性能随着实例化代理数量的增加而提升。此外,这种方法与现有的复杂方法相互独立,可以进一步增强LLMs,而增强程度与任务难度相关。我们在广泛的LLM基准测试上进行了全面实验,以验证我们发现的存在,并研究可以促进其发生的属性。我们的代码可在以下网址公开获取:https://anonymous.4open.science/r/more_agent_is_all_you_need。
我们提出了对话式网络导航问题,其中数字代理控制网络浏览器,并遵循用户指令以对话方式解决真实世界任务。为了支持这个问题,我们引入了WEBLINX - 一个包含100K次交互的大规模基准,跨2300个专家演示的对话式网络导航。我们的基准涵盖了150多个真实网站上的各种模式,可用于在不同场景中训练和评估代理。由于信息量巨大,大型语言模型(LLMs)无法实时处理整个网页。为了解决这一瓶颈,我们设计了一个受检索启发的模型,通过对相关元素进行排名来高效修剪HTML页面。我们使用所选元素,以及屏幕截图和操作历史,评估了各种模型在模拟人类在网络上导航时的能力。我们的实验涵盖了从小型纯文本到专有多模式LLMs的范围。我们发现,较小的微调解码器超越了最佳的零-shot LLMs(包括GPT-4V),但也超过了明确在屏幕截图上预训练的较大的微调多模式模型。然而,所有微调模型都难以推广到未知网站。我们的研究结果凸显了需要能够推广到新领域的大型多模式模型。我们的代码、数据和模型可供研究使用:https://mcgill-nlp.github.io/weblinx
人工智能系统的发展正从创建静态、特定任务模型转变为动态、基于代理的系统,能够在广泛应用中表现出色。我们提出了一个交互式代理基础模型,采用新颖的多任务代理训练范式,用于跨领域、数据集和任务训练人工智能代理。我们的训练范式统一了多样的预训练策略,包括视觉遮罩自编码器、语言建模和下一步动作预测,实现了多功能和适应性的人工智能框架。我们展示了我们的框架在三个独立领域--机器人技术、游戏人工智能和医疗保健方面的表现。我们的模型展示了其在每个领域生成有意义且具有相关背景的输出的能力。我们方法的优势在于其通用性,利用各种数据源,如机器人序列、游戏数据、大规模视频数据集和文本信息,进行有效的多模态和多任务学习。我们的方法为开发通用、采取行动的多模态系统提供了一个有前景的途径。
大型语言模型(LLMs)展示了在理解和生成自然语言方面的显著能力。然而,在预训练语料库中代表性不足的高度专业化领域,如物理和生物医学科学,它们的能力会减弱。本研究探讨了如何重新利用通用LLMs成为专业领域有效的任务求解器。我们引入了一种新颖的、与模型无关的框架,用于学习自定义输入标签,这些标签被参数化为连续向量,附加到LLM的嵌入层,以对LLM进行条件化。我们设计了两种类型的输入标签:领域标签用于界定专业表示(例如化学式)并提供领域相关上下文;功能标签用于表示特定功能(例如预测分子性质)并压缩功能求解指令。我们制定了一个三阶段协议,利用辅助数据和领域知识来学习这些标签。通过明确将任务领域与任务功能分离,我们的方法通过不同的输入标签组合实现了对未见问题的零-shot泛化。它还提高了LLM在各种专业领域的性能,例如预测蛋白质或化学性质以及建模药物靶点相互作用,胜过专门针对这些任务的专家模型。
本技术报告介绍了于2023年中发布的开源多语言E5文本嵌入模型的训练方法论和评估结果。提供了三种不同大小(小/基础/大)的嵌入模型,平衡了推理效率和嵌入质量。训练过程遵循英文E5模型的配方,涉及对10亿个多语言文本对进行对比预训练,然后在一组标记数据集上进行微调。此外,我们引入了一种新的指令调整的嵌入模型,其性能与同等大小的最先进的仅英文模型相当。有关模型发布的信息可在https://github.com/microsoft/unilm/tree/master/e5 找到。
尽管个性化文本到图像(P-T2I)生成模型近年来取得了进展,但基于主题的T2I仍然具有挑战性。主要瓶颈包括:1)需要大量训练资源,2)超参数敏感性导致输出不一致,3)平衡新颖视觉概念和构图对齐的复杂性。我们首先重新阐述了T2I扩散模型的核心理念,以解决上述限制。主要是,当代主题驱动的T2I方法依赖于潜在扩散模型(LDMs),通过交叉注意力层促进T2I映射。虽然LDMs具有明显优势,但P-T2I方法对这些扩散模型的潜在空间的依赖显著增加了资源需求,导致结果不一致,并需要多次迭代才能获得单个期望图像。最近,ECLIPSE展示了一种更节约资源的途径,用于训练基于UnCLIP的T2I模型,避免了对扩散文本到图像先验的需求。在此基础上,我们介绍了lambda-ECLIPSE。我们的方法表明,有效的P-T2I不一定依赖于扩散模型的潜在空间。lambda-ECLIPSE通过仅使用34M参数,在仅使用74个GPU小时的情况下,基于160万图像文本交错数据实现了单一、多主题和边缘引导的T2I个性化。通过大量实验,我们还确定lambda-ECLIPSE在构图对齐方面超越了现有基准线,同时保持概念对齐性能,即使资源利用明显较低。
在上下文学习(ICL,也称为少样本提示)已成为调整大型语言模型适应下游任务的标准方法,通过从少量输入-输出示例中学习。然而,所有基于ICL的方法只从正确的输入-输出对中学习。在本文中,我们重新审视这一范式,通过从少量给定的输入-输出示例中学到更多。我们引入了学习原则(LEAP):首先,我们有意让模型在这些少量示例上犯错误;然后我们反思这些错误,并从中学习出明确的任务特定“原则”,这些原则有助于解决类似问题并避免常见错误;最后,我们提示模型使用原始的少样本示例和这些学到的通用原则来回答未见过的测试问题。我们在广泛的基准测试中评估了LEAP,包括多跳问题回答(Hotpot QA)、文本问答(DROP)、Big-Bench Hard 推理以及数学问题(GSM8K和MATH);在所有这些基准测试中,LEAP都提升了最强大的可用大型语言模型,如GPT-3.5-turbo、GPT-4、GPT-4 turbo和Claude-2.1。例如,LEAP在DROP中比使用GPT-4的标准少样本提示提高了7.5%,在HotpotQA中提高了3.3%。重要的是,LEAP不需要比标准少样本提示设置更多的输入或示例。
我们提出了SPHINX-X,这是基于SPHINX开发的广泛的多模态大型语言模型(MLLM)系列。为了改善架构和训练效率,我们通过去除冗余的视觉编码器、使用跳过令牌绕过完全填充的子图像以及简化多阶段训练为一阶段一体化范式来修改SPHINX框架。为了充分释放MLLM的潜力,我们汇集了一个全面的多领域和多模态数据集,涵盖了语言、视觉和视觉语言任务中的公开资源。我们进一步通过我们策划的OCR密集和Set-of-Mark数据集丰富了这一收藏,扩展了多样性和普适性。通过对不同基础LLM(包括TinyLlama1.1B、InternLM2-7B、LLaMA2-13B和Mixtral8x7B)进行训练,我们获得了一系列在参数大小和多语言能力上有所不同的MLLM。全面的基准测试揭示了多模态性能与数据和参数规模之间的强相关性。代码和模型已发布在https://github.com/Alpha-VLLM/LLaMA2-Accessory。
我们介绍了SPIRIT-LM,这是一个基于多模态的语言模型,自由地结合了文本和语音。我们的模型基于一个预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音模态。语音和文本序列被连接为一个标记集,并使用单词级交错方法在一个小型自动筛选的语音文本平行语料库上进行训练。SPIRIT-LM有两个版本:一个使用语音语义单元的基础版本,另一个使用音高和风格单元来建模表现力的表现版本,除了语义单元外。对于这两个版本,文本使用子词BPE标记进行编码。结果模型展示了文本模型的语义能力和语音模型的表现能力。此外,我们展示了SPIRIT-LM能够跨模态(即ASR、TTS、语音分类)以少量样本学习新任务的能力。
本文介绍了一种新的范式,通过在从扩散模型生成的合成数据集上训练,来增强目标检测器的能力,例如扩展类别或提高检测性能。具体来说,我们将一个实例级别的定位头整合到一个预训练的生成式扩散模型中,以赋予其在生成的图像中定位任意实例的能力。定位头被训练来将类别名称的文本嵌入与扩散模型的区域视觉特征对齐,利用来自现成目标检测器的监督以及一种新颖的自我训练方案,用于(新颖的)检测器未覆盖的类别。这种增强版的扩散模型被称为InstaGen,可以作为目标检测的数据合成器。我们进行了彻底的实验,表明目标检测器在从InstaGen的合成数据集上训练时可以得到增强,表现出优越的性能,超过现有的开放词汇(+4.5 AP)和数据稀疏(+1.2至5.2 AP)场景中的最先进方法。
大多数基于Transformer的视频编码器由于其二次复杂度而仅限于短暂的时间上下文。虽然已经尝试过各种方法来扩展这种上下文,但通常会以概念和计算复杂性为代价。我们建议重新利用现有的预训练视频Transformer,通过简单微调使其关注从过去激活中非参数化衍生出的记忆。通过利用冗余减少,我们的记忆整合视觉Transformer(MC-ViT)轻松地将其上下文延伸到过去,并在从更长的视频中学习时表现出优秀的扩展行为。通过这样做,MC-ViT在EgoSchema、Perception Test和Diving48上实现了长上下文视频理解的最新技术水平,胜过那些受益于数量级更多参数的方法。
视觉-语言(VL)模型已经成为重要的研究焦点,实现了多模态推理方面的显著进展。这些架构通常包括一个视觉编码器、一个大型语言模型(LLM)以及一个将视觉特征与LLM表示空间对齐的投影模块。尽管取得了成功,但一个关键限制仍然存在:视觉编码过程与用户查询(通常以与图像相关的问题形式出现)仍然分离。因此,生成的视觉特征可能无法最佳地调整到图像的特定查询元素。为了解决这个问题,我们引入了QA-ViT,这是一种用于多模态推理的问题感知视觉Transformer方法,直接将问题感知嵌入到视觉编码器中。这种整合产生了动态的视觉特征,专注于与提出的问题相关的图像方面。QA-ViT是模型无关的,可以高效地整合到任何VL架构中。大量实验证明了将我们的方法应用于各种多模态架构的有效性,从而在各种任务中实现了一致的改进,并展示了其增强视觉和场景文本理解潜力。
我们提出了一种优化分布的新算法,这些分布是由参数化随机扩散隐式定义的。通过这样做,我们可以通过优化参数来修改采样过程的结果分布。我们引入了一个针对这些过程的一阶优化的通用框架,它在单个循环中同时执行优化和采样步骤。这种方法受到双层优化和自动隐式微分的最新进展的启发,利用了将采样视为在概率分布空间上的优化的观点。我们对我们的方法的性能提供了理论保证,以及展示了它在真实环境中有效性的实验结果。
将驾驶行为调整至新环境、习俗和法律是自动驾驶长期存在的问题,这一问题妨碍了自动驾驶车辆(AVs)的广泛部署。在本文中,我们提出了LLaDA,这是一个简单而强大的工具,使人类驾驶员和自动驾驶车辆能够通过调整其任务和运动计划来适应新位置的交通规则而在任何地方驾驶。LLaDA通过利用大型语言模型(LLMs)在解释当地驾驶手册中的交通规则方面的惊人零样本泛化能力来实现这一目标。通过广泛的用户研究,我们展示了LLaDA的指导在消除野外意外情况中的歧义方面是有用的。我们还展示了LLaDA在真实世界数据集中调整AV运动规划策略的能力;LLaDA在所有指标上均优于基准规划方法。请查看我们的网站以获取更多详细信息:https://boyiliee.github.io/llada。
我们展示了离线演员-评论家强化学习可以扩展到大型模型 - 例如变压器 - 并遵循与监督学习相似的扩展规律。我们发现,离线演员-评论家算法在包含132个连续控制任务的大型数据集上进行多任务训练时,可以胜过强大的监督行为克隆基线,该数据集包含次优和专家行为。我们引入了基于Perceiver的演员-评论家模型,并阐明了使离线RL与自注意力和交叉注意力模块配合工作所需的关键模型特征。总的来说,我们发现:i)简单的离线演员评论家算法是逐渐摆脱当前主流行为克隆范式的自然选择,ii)通过离线RL,可以学习掌握许多领域的多任务策略,包括真实机器人任务,从次优演示或自动生成的数据中。