每日精选AI研究论文及翻译
大型语言模型的引入显著推动了代码生成的发展。然而,开源模型通常缺乏像GPT-4代码解释器这样先进系统的执行能力和迭代改进。为了解决这一问题,我们推出了OpenCodeInterpreter,这是一个旨在生成、执行和迭代改进代码的开源代码系统系列。通过Code-Feedback支持,该数据集包含68K个多轮交互,OpenCodeInterpreter将执行和人类反馈整合起来,用于动态代码改进。我们对OpenCodeInterpreter在HumanEval、MBPP以及EvalPlus增强版本等关键基准上的全面评估显示出其出色的性能。值得注意的是,OpenCodeInterpreter-33B在HumanEval和MBPP的平均(以及增强版本)上分别达到了83.2(76.4)的准确率,与GPT-4的84.2(76.2)紧密竞争,并通过从GPT-4合成的人类反馈进一步提升至91.6(84.6)。OpenCodeInterpreter弥合了开源代码生成模型与GPT-4代码解释器等专有系统之间的差距。
尽管Transformer在各种应用场景中取得了巨大进展,但这类架构在解决复杂决策任务方面仍然落后于传统的符号规划器。在这项工作中,我们演示了如何训练Transformer来解决复杂的规划任务,并提出了Searchformer,这是一个Transformer模型,可以在93.7%的情况下最优地解决以前未见的Sokoban难题,同时比标准A*搜索少使用高达26.8%的搜索步骤。Searchformer是一个编码器-解码器Transformer模型,经过训练可以预测A*搜索的搜索动态。然后通过专家迭代对该模型进行微调,以执行比A*搜索更少的搜索步骤,同时生成最佳计划。在我们的训练方法中,A*搜索的搜索动态被表达为一个标记序列,概述了符号规划过程中任务状态何时被添加和移除到搜索树中。在我们对迷宫导航的消融研究中,我们发现Searchformer明显优于直接使用5-10倍较小模型大小和10倍较小训练数据集的基准模型来预测最佳计划。我们还演示了Searchformer如何扩展到更大更复杂的决策任务,如Sokoban,提高了解决任务的百分比并缩短了搜索动态。
为了打造更具包容性的视觉-语言模型(VLMs),本研究引入了一个名为Palo的大型多语言多模型。Palo提供了包括英语、中文、印地语、西班牙语、法语、阿拉伯语、孟加拉语、俄语、乌尔都语和日语在内的10种主要语言的视觉推理能力,覆盖了总共约50亿人口(全球人口的65%)。我们的方法涉及一种半自动化的翻译方法,通过使用经过微调的大型语言模型,将多模态指导数据集从英语翻译到目标语言,从而确保高语言保真度,同时又能够实现可扩展性,减少了手动工作量。引入多样化的指导集有助于提升跨多种语言的整体性能,特别是那些代表性不足的语言,如印地语、阿拉伯语、孟加拉语和乌尔都语。生成的模型在三个规模(1.7B、7B和13B参数)上进行训练,展示了泛化性和可扩展性,我们观察到与强基线相比有显著改进。我们还提出了首个多语言多模态基准,用于评估未来方法的视觉-语言推理能力跨语言的表现。源代码:https://github.com/mbzuai-oryx/PALO。
我们提出了TinyLLaVA框架,为设计和分析小规模大型多模态模型(LMMs)提供了统一的视角。我们通过实证研究了不同视觉编码器、连接模块、语言模型、训练数据和训练方案的影响。我们的大量实验表明,优质数据与更好的训练方案相结合,较小的LMMs可以始终达到与较大LMMs相当的性能。在我们的框架下,我们训练了一系列小规模LMMs。我们最佳模型TinyLLaVA-3.1B在整体性能上优于现有的7B模型,如LLaVA-1.5和Qwen-VL。我们希望我们的发现可以作为未来研究在数据扩展、训练设置和模型选择方面的基准。我们的模型权重和代码将会公开发布。
基于Transformer的视觉模型通常将图像标记为固定大小的方形补丁作为输入单元,这种方法缺乏对图像内容的适应性,忽略了固有的像素分组结构。受语言模型广泛采用的子词标记启发,我们提出了一种在子对象级别进行图像标记的方法,其中子对象由通过分割模型(例如,分割任何模型)获得的语义上有意义的图像段表示。为了基于子对象标记实现学习系统,我们首先引入了一个序列到序列自动编码器(SeqAE),将不同大小和形状的子对象段压缩为紧凑的嵌入向量,然后将子对象嵌入馈送到大型语言模型进行视觉语言学习。实证结果表明,与传统的补丁级别标记相比,我们的子对象级别标记显著促进了将图像翻译为对象和属性描述的高效学习。代码和模型将在https://github.com/ChenDelong1999/subobjects 上开源。
在实验设计的广阔领域中,回归一直是一个强大的工具,能够准确预测系统或模型的结果指标,只需给定一组参数,但传统上只适用于特定任务的方法。在本文中,我们提出了OmniPred,这是一个用于训练语言模型的框架,可以作为通用的端到端回归器,针对来自不同真实世界实验的(x,y)评估数据。通过使用来自Google Vizier的数据,这是全球最大的黑盒优化数据库之一,我们的大量实验证明,仅通过数学参数和值的文本表示,语言模型能够进行非常精确的数值回归,如果有机会进行多任务训练,可以显著优于传统的回归模型。
随着大型语言模型(LLMs)的快速发展,多智能体应用取得了显著进展。然而,协调智能体合作和LLMs不稳定性表现所带来的复杂性,给开发健壮高效的多智能体应用带来了显著挑战。为了解决这些挑战,我们提出了AgentScope,这是一个以开发者为中心的多智能体平台,其核心通信机制是消息交换。结合丰富的语法工具、内置资源和用户友好的交互,我们的通信机制显著降低了开发和理解的障碍。为了实现健壮灵活的多智能体应用,AgentScope提供了内置和可定制的容错机制,同时还配备了用于多模态数据生成、存储和传输的系统级支持。此外,我们设计了基于actor的分发框架,实现了本地和分布式部署之间的轻松转换,以及自动并行优化而无需额外努力。凭借这些特性,AgentScope赋予开发者构建充分发挥智能体潜力的应用的能力。我们已在https://github.com/modelscope/agentscope发布了AgentScope,并希望AgentScope能吸引更广泛的参与和创新在这个快速发展的领域。
从扩散概率模型(DPMs)中采样通常对于高质量图像生成而言成本高昂,通常需要许多步骤以及一个庞大的模型。在本文中,我们介绍了一种名为采样轨迹拼接(T-Stitch)的简单而高效的技术,以提高采样效率,减少或不降低生成质量。T-Stitch并非仅仅在整个采样轨迹中使用一个大型DPM,而是首先利用较小的DPM作为较便宜的替代品来代替较大的DPM的初始步骤,并在后期切换到较大的DPM。我们的关键见解是,在相同的训练数据分布下,不同的扩散模型学习类似的编码,并且较小的模型能够在早期步骤中生成良好的全局结构。大量实验证明,T-Stitch无需训练,在不同架构中通用,并且能够与大多数现有的快速采样技术相辅相成,具有灵活的速度和质量权衡。例如,在DiT-XL上,可以安全地用速度快10倍的DiT-S替换40%的早期时间步,而在有条件类别的ImageNet生成中不会降低性能。我们进一步展示,我们的方法不仅可以用作加速流行的预训练稳定扩散(SD)模型的替代技术,还可以改善来自公共模型库的风格化SD模型的快速对齐。代码已发布在https://github.com/NVlabs/T-Stitch。
将大型语言模型(LLMs)集成到开发环境(IDEs)已成为现代软件开发的焦点。诸如OpenAI GPT-3.5/4和Code Llama之类的LLMs具有潜力通过充当智能、基于聊天的编程助手,显著提高开发人员的生产力。然而,直接使用LLMs可能不够优化适用于任何给定情景。相反,每个系统都需要对LLMs进行调整以适应其启发式集,以确保获得最佳性能。在本文中,我们介绍了Copilot评估工具套件:这是一组用于评估LLM引导的IDE交互的数据和工具,涵盖各种编程情景和语言。我们提出的度量标准比以往的最先进评估系统更加稳健和信息密集。我们为涵盖广泛开发人员任务范围的情景设计和计算静态和基于执行的成功度量标准,包括从自然语言生成代码(generate)、从代码生成文档(doc)、生成测试用例(test)、修复错误(fix)以及理解工作空间和解决查询(workspace)。这些成功度量标准旨在评估LLMs在给定IDE及其相应参数空间内的性能。我们通过使用这些度量标准评估三种常见LLMs的经验可以为LLM引导的IDE中未来情景的开发和验证提供指导。
在低资源语言中的数据稀缺问题可以通过使用双语词典,从高资源语言的标记任务数据中进行逐词翻译来解决。然而,双语词典通常与任务数据的词汇重叠有限,导致翻译覆盖率和词典利用率低。我们提出了词典条件数据生成(LexC-Gen)方法,可以大规模生成低资源语言分类任务数据。具体而言,LexC-Gen首先使用双语词典中的高资源语言词汇生成与词典兼容的任务数据,然后通过词汇翻译将其翻译成低资源语言。在17种极低资源语言中,LexC-Gen生成的数据与专家翻译的黄金数据具有竞争力,并在情感分析和主题分类任务上分别比现有基于词典的词汇翻译方法平均提高了5.6和8.9个点。我们展示了在双语词典的条件下是LexC-Gen的关键组成部分。LexC-Gen也很实用,只需要一个单个GPU就能大规模生成数据。它与开放获取的LLMs配合良好,成本仅为基于GPT4的多语言数据生成成本的五分之一。
在这项工作中,我们解决了去噪手-物体交互(HOI)的挑战性问题。给定一个错误的交互序列,目标是优化不正确的手部轨迹,消除交互伪影,以获得感知上真实的序列。这一挑战涉及复杂的交互噪声,包括不自然的手部姿势和不正确的手-物体关系,同时需要对新的交互和不同的噪声模式具有强大的泛化能力。我们通过一种新颖的方法GeneOH Diffusion 来解决这些挑战,其中包括两个关键设计:一种名为GeneOH的创新接触中心的HOI表示法和一种新的领域通用的去噪方案。接触中心的表示法GeneOH 信息化地参数化了HOI过程,促进了在各种HOI情景中的增强泛化。新的去噪方案包括一个经典去噪模型,经过训练,能够将来自白化噪声空间的嘈杂数据样本投影到干净的数据流形上,以及一种“通过扩散去噪”的策略,通过首先将输入轨迹扩散到与白化噪声空间对齐,然后通过经典去噪器进行清理,从而能够处理具有各种噪声模式的输入轨迹。在四个具有显著领域变化的基准测试上进行的大量实验表明了我们方法的卓越有效性。GeneOH Diffusion 还展示了在各种下游应用中的潜力。项目网站:https://meowuu7.github.io/GeneOH-Diffusion/。
大型语言模型(LLMs)是内容审核的强大工具,但其推理成本和延迟使它们在大型数据集上的日常使用变得困难,例如谷歌广告存储库。本研究提出了一种方法,用于在谷歌广告中扩展LLM审核内容的规模。首先,我们使用启发式方法通过过滤和去重来选择候选项,并为这些广告创建广告群集,从中选择一个代表性广告。然后,我们使用LLMs仅审核代表性广告。最后,我们将代表性广告的LLM决策传播回它们的群集。这种方法将审核数量减少了3个数量级以上,同时与基准非LLM模型相比,召回率提高了2倍。这种方法的成功与用于聚类和标签传播的表示的功能密切相关;我们发现,跨模态相似性表示比单模态表示产生更好的结果。
大规模文本到图像模型实现了广泛的图像编辑技术,使用文本提示甚至空间控制。然而,将这些编辑方法应用于描绘单个场景的多视图图像会导致3D不一致的结果。在这项工作中,我们专注于基于空间控制的几何操作,并介绍一种方法来统一各种视图上的编辑过程。我们基于两个观点:(1)在生成过程中始终保持一致的特征有助于实现多视图编辑的一致性,(2)自注意力层中的查询显著影响图像结构。因此,我们提出通过强化查询的一致性来改善编辑图像的几何一致性。为此,我们引入了QNeRF,这是一个基于编辑图像的内部查询特征训练的神经辐射场。一旦训练完成,QNeRF可以渲染出3D一致的查询,然后在生成过程中软性注入回自注意力层,极大地提高了多视图的一致性。我们通过渐进迭代方法对这一过程进行了改进,更好地统一了扩散时间步中的查询。我们将我们的方法与一系列现有技术进行了比较,并证明它能够实现更好的多视图一致性,并更忠实于输入场景。这些优势使我们能够训练出更少视觉伪影、更好地与目标几何形状对齐的神经辐射场。
最近,3D 高斯飞溅(3DGS)的出现在神经渲染领域引发了一场革命,实现了高质量渲染的实时速度。然而,3DGS 在很大程度上依赖于由运动结构(SfM)技术生成的初始化点云。在处理不可避免包含无纹理表面的大型场景时,SfM 技术总是无法在这些表面产生足够的点,并且无法为 3DGS 提供良好的初始化。因此,3DGS 遭受到困难的优化和低质量渲染。本文受经典多视图立体(MVS)技术启发,提出了一种名为 GaussianPro 的新方法,该方法应用渐进传播策略来引导 3D 高斯的密集化。与 3DGS 中使用的简单分割和克隆策略相比,我们的方法利用场景现有重建几何的先验知识和补丁匹配技术,生成具有准确位置和方向的新高斯。在大规模和小规模场景上的实验证明了我们方法的有效性,在 Waymo 数据集上,我们的方法明显优于 3DGS,PSNR 方面提高了 1.15dB。
我们介绍了CyberDemo,这是一种新颖的机器人模仿学习方法,利用模拟人类演示来完成真实世界任务。通过在模拟环境中进行大量数据增强,CyberDemo在转移到真实世界时优于传统的同领域真实世界演示,能够处理多样的物理和视觉条件。尽管在数据收集方面具有经济实惠和便利性,CyberDemo在各种任务的成功率方面优于基准方法,并展现出对以前未见过物体的泛化能力。例如,它可以旋转新颖的四阀和五阀,尽管人类演示仅涉及三阀。我们的研究展示了模拟人类演示在真实世界灵巧操作任务中的重要潜力。更多详细信息请访问https://cyber-demo.github.io。
作为一种有前景的3D生成技术,多视角扩散(MVD)因其在泛化性、质量和效率方面的优势而受到广泛关注。通过微调预训练的大型图像扩散模型,MVD方法首先基于图像或文本提示生成3D对象的多个视图,然后通过多视角3D重建来重建3D形状。然而,生成图像中的稀疏视图和不一致细节使得3D重建具有挑战性。我们提出了MVD^2,这是一种用于多视角扩散(MVD)图像的高效3D重建方法。MVD^2通过投影和卷积将图像特征聚合成3D特征体积,然后将体积特征解码为3D网格。我们使用3D形状集合和由3D形状的渲染视图提示的MVD图像来训练MVD^2。为了解决生成的多视角图像与3D形状的地面真实视图之间的差异,我们设计了一个简单但高效的视图相关训练方案。MVD^2提高了MVD的3D生成质量,快速且对各种MVD方法具有鲁棒性。训练后,它可以在一秒内高效地从多视角图像解码3D网格。我们使用Zero-123++和ObjectVerse-LVIS 3D数据集对MVD^2进行训练,并展示了它在使用合成和真实图像作为提示时,从不同MVD方法生成的多视角图像中生成3D模型的卓越性能。
最近的研究表明,transformers,尤其是线性注意力模型,在前向推断步骤中隐式执行类似梯度下降的算法,对提供的上下文数据进行处理。然而,它们在处理更复杂问题方面的能力尚未被探索。在本文中,我们证明任何线性transformer都保持隐式线性模型,并可被解释为执行一种变种的预条件梯度下降。我们还研究了在线性transformer在训练数据受到不同级别噪声干扰的挑战性场景中的应用。值得注意的是,我们证明对于这个问题,线性transformer发现了一种复杂且高效的优化算法,超越或与许多合理基线的性能相匹敌。我们对这一算法进行了逆向工程,并展示它是一种基于动量和根据噪声水平自适应调整的新颖方法。我们的发现表明,即使是线性transformers也具有发现复杂优化策略的惊人能力。
模仿学习是从示范中学习策略,而无需手动设计奖励函数。在许多机器人任务中,如自主赛车,模仿的策略必须对复杂的环境动态和人类决策建模。序列建模在捕捉运动序列的复杂模式方面非常有效,但在适应新环境或分布转移方面表现不佳,而这在现实世界的机器人任务中很常见。相比之下,对抗模仿学习(AIL)可以缓解这种影响,但在样本效率和处理复杂运动模式方面存在困难。因此,我们提出了BeTAIL:行为变换器对抗模仿学习,它将来自人类示范的行为变换器(BeT)策略与在线AIL相结合。BeTAIL在BeT策略中添加了一个AIL残差策略,以建模人类专家的顺序决策过程,并纠正分布外状态或环境动态的变化。我们在三个挑战中测试了BeTAIL,使用了《极限竞速体育》中真实人类游戏示范的专家级别。我们提出的残差BeTAIL减少了环境交互,并提高了赛车性能和稳定性,即使BeT是在不同赛道上进行预训练的也是如此。视频和代码可在以下网址找到:https://sites.google.com/berkeley.edu/BeTAIL/home。