每日精选AI研究论文及翻译
大型语言模型(LLMs)代理在处理交互环境中的复杂任务方面变得越来越关键。现有研究主要集中在通过行为克隆来提高性能,但这种方法在现实世界应用中经常失败,主要是由于无法从错误中恢复。然而,逐步级别的批判数据难以收集且成本高昂。因此,自动化和动态构建自我批判数据集对赋予模型智能代理能力至关重要。在这项工作中,我们提出了一种迭代自我训练框架,Agent-R,使语言Agent能够实时反思。与传统方法不同,Agent-R利用MCTS构建训练数据,从错误的轨迹中恢复正确的轨迹,而不是基于正确性奖励或惩罚行动。代理反思的一个关键挑战在于及时修订,而不是等到一个回合结束。为了解决这个问题,我们引入了一个模型引导的批判构建机制:演员模型识别失败轨迹中的第一个错误步骤(在其当前能力范围内)。从这一点开始,我们将其与相邻的正确路径拼接起来,这些路径在树中具有相同的父节点。这种策略使模型能够基于其当前策略学习反思,从而提高学习效率。为了进一步探索这种自我改进范式的可扩展性,我们研究了错误校正能力和数据集构建的迭代改进。我们的研究结果表明,Agent-R不断提高了模型从错误中恢复的能力,并实现了及时的错误校正。在三个交互环境上的实验表明,Agent-R有效地装备了代理来纠正错误操作,同时避免循环,相较于基线方法,取得了更优越的性能(+5.59%)。
我们介绍了MMVU,这是一个全面的专家级、多学科基准,用于评估视频理解中的基础模型。MMVU包括3,000个专家注释的问题,涵盖了四个核心学科中的27个主题:科学、医疗保健、人文社会科学和工程学。与先前的基准相比,MMVU具有三个关键进展。首先,它挑战模型应用领域特定知识,进行专家级推理,分析专业领域视频,超越了当前视频基准中通常评估的基本视觉感知。其次,每个示例都是由人类专家从头开始注释的。我们实施严格的数据质量控制,以确保数据集的高质量。最后,每个示例都附带有专家注释的推理原理和相关领域知识,促进深入分析。我们在MMVU上对32个前沿多模态基础模型进行了广泛评估。最新的System-2-capable模型,o1和Gemini 2.0 Flash Thinking,在测试模型中表现最佳。然而,它们仍然无法与人类专业知识匹敌。通过深入的错误分析和案例研究,我们为未来在专业领域的专家级、知识密集型视频理解方面的进展提供了可操作的见解。
本文重新审视了在训练混合专家模型(MoEs)时实现负载平衡损失(LBL)。具体而言,MoEs的LBL被定义为N_E sum_{i=1}^{N_E} f_i p_i,其中N_E是专家总数,f_i代表选择专家i的频率,p_i表示专家i的平均门控分数。现有的MoE训练框架通常采用并行训练策略,以便在微批次内计算f_i和LBL,然后在并行组中进行平均。实质上,用于训练数十亿规模的LLMs的微批次通常包含非常少的序列。因此,微批次的LBL几乎处于序列级别,路由器被推动以在每个序列内均匀分配令牌。在这种严格的约束下,即使来自特定领域序列(例如代码)的令牌也会均匀路由到所有专家,从而抑制了专家的专业化。在这项工作中,我们提出使用全局批次计算LBL以放松这种约束。因为全局批次包含比微批次更多样化的序列,这将促进语料库级别的负载平衡。具体而言,我们引入了额外的通信步骤来同步微批次间的f_i,然后用它来计算LBL。通过对基于MoEs的LLMs进行实验(总参数高达42.8B,令牌数达400B),我们惊讶地发现全局批次的LBL策略在预训练困惑度和下游任务中都取得了出色的性能提升。我们的分析表明,全局批次的LBL还极大地提高了MoE专家的领域专业化。
本文介绍了UI-TARS,这是一个本地GUI代理模型,仅将屏幕截图作为输入,并执行类似人类的交互(例如键盘和鼠标操作)。与依赖于大量封装的商业模型(例如GPT-4o)以及专家设计的提示和工作流的流行代理框架不同,UI-TARS是一个端到端模型,表现优于这些复杂的框架。实验证明了其卓越性能:UI-TARS在评估感知、接地和GUI任务执行的10多个GUI代理基准测试中取得了SOTA性能。值得注意的是,在OSWorld基准测试中,UI-TARS在50步骤时取得了24.6的分数,在15步骤时取得了22.7的分数,优于Claude(分别为22.0和14.9)。在AndroidWorld中,UI-TARS取得了46.6的分数,超过了GPT-4o(34.5)。UI-TARS融合了几项关键创新:(1)增强感知:利用大规模GUI屏幕截图数据集,实现对UI元素的上下文感知理解和精准字幕;(2)统一动作建模,将动作标准化为跨平台的统一空间,并通过大规模动作跟踪实现精准接地和交互;(3)系统-2推理,将深思熟虑的推理融入多步决策制定中,涉及多种推理模式,如任务分解、反思思考、里程碑识别等;(4)反思在线跟踪的迭代训练,通过在数百台虚拟机上自动收集、过滤和反思性地完善新的交互跟踪,解决了数据瓶颈问题。通过迭代训练和反思调整,UI-TARS不断从错误中学习,并在最少人为干预下适应未预见的情况。我们还分析了GUI代理的演变路径,以指导该领域的进一步发展。
我们提出了TokenVerse——一种多概念个性化方法,利用预训练的文本到图像扩散模型。我们的框架可以从仅一幅图像中解开复杂的视觉元素和属性,同时实现从多幅图像中提取的概念组合的无缝插拔生成。与现有作品相反,TokenVerse可以处理具有多个概念的多幅图像,并支持包括物体、配饰、材料、姿势和光照在内的广泛概念。我们的工作利用了基于DiT的文本到图像模型,其中输入文本通过注意力和调制(移位和缩放)影响生成。我们观察到调制空间是语义的,并且能够对复杂概念进行局部控制。基于这一观察,我们设计了一个基于优化的框架,该框架接受一幅图像和一个文本描述作为输入,并为每个单词找到调制空间中的一个独特方向。然后可以使用这些方向生成新图像,以期望的配置结合学习到的概念。我们展示了TokenVerse在具有挑战性的个性化设置中的有效性,并展示了其相对于现有方法的优势。项目网页位于https://token-verse.github.io/
尽管大型视觉语言模型(LVLMs)在视觉理解方面表现出色,但有时会生成不正确的输出。虽然基于强化学习或测试时缩放的奖励模型(RMs)提供了提高生成质量的潜力,但仍存在一个关键差距:公开可用的LVLMs多模态奖励模型稀缺,专有模型的实现细节通常不清楚。我们通过InternLM-XComposer2.5-Reward(IXC-2.5-Reward)填补了这一差距,这是一个简单而有效的多模态奖励模型,可使LVLMs与人类偏好保持一致。为确保IXC-2.5-Reward的稳健性和多功能性,我们建立了一个高质量的多模态偏好语料库,涵盖文本、图像和视频输入,跨越不同领域,如遵循指示、一般理解、文本丰富的文档、数学推理和视频理解。IXC-2.5-Reward在最新的多模态奖励模型基准测试中取得了出色的结果,并在仅文本奖励模型基准测试中表现出竞争力。我们进一步展示了IXC-2.5-Reward的三个关键应用:(1)为RL训练提供监督信号。我们将IXC-2.5-Reward与Proximal Policy Optimization(PPO)集成,产生了IXC-2.5-Chat,显示出在遵循指示和多模态开放式对话中持续改进;(2)从候选响应中选择最佳响应以进行测试时缩放;以及(3)从现有图像和视频指示调整训练数据中过滤异常值或嘈杂样本。为确保可复现性并促进进一步研究,我们已在https://github.com/InternLM/InternLM-XComposer开源了所有模型权重和训练配方。
我们介绍Hunyuan3D 2.0,这是一个先进的大规模3D合成系统,用于生成高分辨率纹理3D资产。该系统包括两个基础组件:一个大规模形状生成模型——Hunyuan3D-DiT,以及一个大规模纹理合成模型——Hunyuan3D-Paint。基于可扩展的基于流的扩散变压器构建的形状生成模型旨在创建与给定条件图像正确对齐的几何形状,为下游应用奠定坚实基础。纹理合成模型受益于强大的几何和扩散先验知识,为生成或手工制作的网格生成高分辨率且生动的纹理贴图。此外,我们构建了Hunyuan3D-Studio——一个多才多艺、用户友好的制作平台,简化了3D资产的重新创建过程。它使专业和业余用户能够高效地操纵甚至为其网格添加动画。我们系统地评估了我们的模型,表明Hunyuan3D 2.0在几何细节、条件对齐、纹理质量等方面优于先前的最先进模型,包括开源模型和闭源模型。为填补开源3D社区中大规模基础生成模型的空白,Hunyuan3D 2.0已公开发布。我们的模型代码和预训练权重可在以下链接获取:https://github.com/Tencent/Hunyuan3D-2
推理语言模型(RLMs),也称为大型推理模型(LRMs),如OpenAI的o1和o3,DeepSeek-V3和阿里巴巴的QwQ,通过将大型语言模型(LLMs)与先进的推理机制相结合,重新定义了人工智能的问题解决能力。然而,它们高昂的成本、专有性质和复杂的架构 - 独特地结合了强化学习(RL)、搜索启发式和LLMs - 提出了可访问性和可扩展性挑战。为了解决这些问题,我们提出了一个全面的蓝图,将RLM组件组织成一个模块化框架,基于对所有RLM作品的调查和分析。这个蓝图包括各种推理结构(链、树、图和嵌套形式)、推理策略(如蒙特卡洛树搜索、波束搜索)、RL概念(策略、价值模型等)和监督方案(基于输出和基于过程的监督)。我们还提供了详细的数学公式和算法规范,以简化RLM的实现。通过展示像LLaMA-Berry、QwQ、Journey Learning和思维图等方案如何适用作为特例,我们展示了蓝图的多功能性和统一潜力。为了说明其实用性,我们引入了x1,一个用于快速RLM原型设计和实验的模块化实现。利用x1和文献综述,我们提供了关键见解,如针对策略和价值模型的多阶段训练,以及熟悉训练分布的重要性。最后,我们概述了RLMs如何与更广泛的LLM生态系统集成,包括工具和数据库。我们的工作揭示了RLM的构建过程,使先进的推理能力民主化,并促进创新,旨在通过降低RLM开发和实验的门槛来缓解“富裕AI”和“贫穷AI”之间的差距。
智能手机已成为现代生活中不可或缺的一部分,然而在移动设备上执行复杂任务通常仍然令人沮丧。基于大型多模态模型(LMM)的移动代理的最新进展表明其能够感知和行动于移动环境中。然而,当前方法面临着重大限制:它们在满足真实世界人类需求方面表现不佳,难以处理需要推理和长期规划的任务,并且缺乏从先前经验中学习和改进的机制。为了克服这些挑战,我们引入了Mobile-Agent-E,这是一个能够通过过往经验进行自我演化的分层多代理框架。所谓分层,是指明确区分高层规划和低层执行行动。该框架包括一个负责将复杂任务分解为子目标从而制定整体计划的Manager,以及四个下属代理——Perceptor、Operator、Action Reflector和Notetaker——分别负责处理细粒度视觉感知、即时行动执行、错误验证和信息聚合。Mobile-Agent-E还具有一个新颖的自我演化模块,维护着一个包含提示和快捷方式的持久长期记忆。提示是关于如何有效地与环境进行交互的一般指导和从先前任务中学到的经验教训。快捷方式是针对特定子程序定制的可重复使用的可执行原子操作序列。提示和快捷方式的引入有助于在性能和效率方面持续改进。除了这个框架,我们还介绍了Mobile-Eval-E,一个新的基准测试,包含需要长期规划和多应用程序交互的复杂移动任务。实证结果表明,Mobile-Agent-E在三个基础模型骨干上实现了比先前最先进方法提高了22%的绝对改进。项目页面:https://x-plug.github.io/MobileAgent。
由大型语言模型(LLMs)驱动的自主代理具有增强人类能力的潜力,可以协助完成从发送电子邮件到执行数据分析等数字任务。现有LLMs在这些任务上的能力通常受制于它们与相应环境的高质量代理数据的缺乏。我们提出了“互动学习”(Learn-by-interact)的数据中心框架,用于使LLM代理适应任何给定环境,而无需人类注释。互动学习基于文档合成代理-环境交互轨迹,并通过总结或抽象交互历史构建指令,这一过程称为反向构建。我们通过在基于训练的场景和基于训练的无上下文学习(ICL)中使用合成数据来评估其质量,在其中我们为代理设计了针对性的创新检索方法。跨越现实编码、Web和桌面环境的SWE-bench、WebArena、OSWorld和Spider2-V上的大量实验显示了互动学习在各种下游代理任务中的有效性——与Claude-3.5相比,ICL的基准结果提高了高达12.2%,而与Codestral-22B一起进行的训练提高了19.5%。我们进一步展示了反向构建的关键作用,为训练提供了高达14.0%的改进。我们的消融研究表明了我们合成数据在ICL中提供的效率,以及我们的检索管道相对于传统的检索增强生成(RAG)等替代方法的优越性。我们期望互动学习将作为代理数据合成的基础,随着LLMs越来越多地部署在真实世界环境中。
Depth Anything 在单目深度估计方面取得了显著的成功,具有强大的泛化能力。然而,在视频中存在时间不一致性,阻碍了其实际应用。已经提出了各种方法来缓解这一问题,通过利用视频生成模型或引入光流和摄像机姿势的先验知识。然而,这些方法仅适用于短视频(< 10秒),并且需要在质量和计算效率之间进行权衡。我们提出了Video Depth Anything,用于在超长视频(几分钟以上)中进行高质量、一致的深度估计,而不牺牲效率。我们基于Depth Anything V2 构建了我们的模型,并用高效的时空头替换了其头部。我们设计了一个简单而有效的时间一致性损失,通过限制时间深度梯度,消除了对额外几何先验的需求。该模型是在视频深度和未标记图像的联合数据集上训练的,类似于Depth Anything V2。此外,我们开发了一种基于关键帧的策略,用于长视频推断。实验证明,我们的模型可以应用于任意长的视频,而不会影响质量、一致性或泛化能力。在多个视频基准测试上进行的全面评估表明,我们的方法在零样本视频深度估计方面取得了最新的技术水平。我们提供不同规模的模型,以支持各种场景,我们最小的模型能够以30 FPS 的实时性能运行。
生成建模旨在将随机噪声转化为结构化输出。在这项工作中,我们通过允许运动控制来增强视频扩散模型,采用结构化潜在噪声抽样。这是通过仅改变数据实现的:我们预处理训练视频以产生结构化噪声。因此,我们的方法对扩散模型设计是不可知的,无需更改模型架构或训练流程。具体来说,我们提出了一种新颖的噪声扭曲算法,足够快速以实时运行,用光流场导出的相关扭曲噪声替换随机时间高斯性,同时保留空间高斯性。我们的算法的高效性使我们能够使用扭曲噪声对现代视频扩散基础模型进行微调,而几乎没有额外开销,并为各种用户友好的运动控制提供一站式解决方案:局部对象运动控制、全局摄像机运动控制和运动转移。在我们的扭曲噪声中时间相干性和空间高斯性之间的协调导致有效的运动控制,同时保持逐帧像素质量。大量实验和用户研究证明了我们方法的优势,使其成为视频扩散模型中控制运动的稳健且可扩展的方法。视频结果可在我们的网页上找到:https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow。源代码和模型检查点可在GitHub上找到:https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow。
我们展示了照片元数据中包含的GPS标签为图像生成提供了有用的控制信号。我们训练了GPS到图像的模型,并将其用于需要对城市内图像变化进行细粒度理解的任务。特别是,我们训练了一个扩散模型,以GPS和文本为条件生成图像。学习的模型生成捕捉不同街区、公园和地标的独特外观的图像。我们还通过得分蒸馏采样从2D GPS到图像模型中提取3D模型,利用GPS条件来约束从每个视角重建的外观。我们的评估表明,我们的GPS条件模型成功学习生成基于位置变化的图像,并且GPS条件改善了估计的3D结构。
监督微调(SFT)数据的质量在提升大型语言模型(LLMs)的对话能力中起着至关重要的作用。然而,随着LLMs变得更加先进,高质量人工标注的SFT数据的可用性已成为一个重要瓶颈,迫使更多依赖合成训练数据。在这项工作中,我们介绍了Condor,一个新颖的两阶段合成数据生成框架,结合了世界知识树和自我反思精化,以大规模生成高质量的SFT数据。我们的实验结果表明,仅在20K个Condor生成样本上微调的基础模型表现优于对照组。Condor中的额外精化阶段进一步使LLMs在各种规模(高达72B)上实现迭代自我改进,验证了我们方法的有效性。此外,我们对后训练中合成数据的扩展性进行的研究揭示了性能改进的巨大潜力,为未来研究开辟了有前途的途径。
本文提出了一种新颖的音频驱动的说话人方法,能够同时生成高度表现力丰富的面部表情和手势。与现有方法侧重生成全身或半身姿势不同,我们研究了共语手势生成的挑战,并确定了音频特征与全身手势之间的弱对应关系是一个关键限制。为了解决这个问题,我们将任务重新定义为一个两阶段过程。在第一阶段,我们直接从音频输入中生成手部姿势,利用音频信号与手部动作之间的强相关性。在第二阶段,我们采用扩散模型合成视频帧,结合第一阶段生成的手部姿势来产生逼真的面部表情和身体动作。我们的实验结果表明,所提出的方法在视觉质量和同步精度方面均优于最先进的方法,如CyberHost和Vlogger。这项工作为音频驱动手势生成提供了新视角,并为创建富有表现力和自然的说话人动画提供了一个稳健的框架。
我们介绍了MAGI,这是一个混合视频生成框架,结合了用于帧内生成的掩码建模和用于下一帧生成的因果建模。我们的关键创新是完全教师强制(CTF),它将掩码帧条件设置为完整观察帧,而不是掩码帧(即掩码教师强制,MTF),从而实现了从标记级(补丁级)到帧级自回归生成的平滑过渡。CTF明显优于MTF,在首帧条件视频预测的FVD分数上实现了+23%的改进。为了解决曝光偏差等问题,我们采用了有针对性的训练策略,在自回归视频生成方面设立了新的基准。实验表明,即使在仅训练了16帧的情况下,MAGI也能生成超过100帧的长、连贯视频序列,突显了其在可扩展、高质量视频生成方面的潜力。
我们研究了标记嵌入的几何形状与在Transformer模型中下一个标记预测中的作用之间的关系。这种联系的一个重要方面使用了经验测度的概念,它编码了跨Transformer层中的标记点云的分布,并推动了标记表示在均场相互作用图中的演变。我们使用固有维度、邻域重叠和余弦相似度等度量来观察这些经验测度在各层之间的情况。为了验证我们的方法,我们将这些度量与一个标记被打乱的数据集进行比较,这会破坏句法和语义结构。我们的研究结果显示了标记嵌入的几何特性与下一个标记预测的交叉熵损失之间的相关性,这意味着具有更高损失值的提示在更高维空间中表示标记。
视觉语言模型(VLMs)处理图像和文本输入,越来越多地整合到聊天助手和其他消费者人工智能应用中。然而,如果没有适当的保障措施,VLMs可能会提供有害建议(例如如何自残)或鼓励不安全行为(例如吸毒)。尽管存在明显的危险,迄今为止很少有研究评估VLM的安全性以及多模态输入带来的新风险。为了填补这一空白,我们引入了MSTS,一个面向VLM的多模态安全测试套件。MSTS包括40个细粒度危险类别中的400个测试提示。每个测试提示包含一段文本和一幅图像,只有结合起来才能揭示它们完整的不安全含义。通过MSTS,我们发现几个开放式VLM中存在明显的安全问题。我们还发现一些VLM之所以安全,纯属偶然,因为它们甚至无法理解简单的测试提示。我们将MSTS翻译成十种语言,展示非英语提示以增加不安全模型响应的比率。我们还展示,与多模态提示相比,仅使用文本进行测试时模型更安全。最后,我们探讨了VLM安全评估的自动化,发现即使是最好的安全分类器也存在不足。
个性化新闻标题生成旨在为用户提供符合其偏好的引人注目标题。现有方法侧重于用户导向的内容偏好,但大多数方法忽视了多样化的风格偏好对用户全面兴趣的重要性,导致个性化效果不佳。鉴此,我们提出了一种新颖的风格-内容感知个性化标题生成(SCAPE)框架。SCAPE利用大型语言模型(LLM)协作从标题中提取内容和风格特征。它进一步通过对比学习为基础的分层融合网络,自适应地整合用户的长期和短期兴趣。通过将全面兴趣融入标题生成器,SCAPE在生成过程中反映用户的风格-内容偏好。在真实数据集PENS上进行的大量实验表明,SCAPE相对于基线方法具有优越性。
大型视觉语言模型(LVLMs)展示了在理解和描述视觉内容方面的显著能力,在各种视觉-语言任务中取得了最先进的性能。然而,这些模型经常表现出幻觉行为,即生成包含输入图像中不存在的对象或细节的描述。我们的工作通过分析变压器层和头部之间的注意力模式来研究这一现象,揭示了幻觉经常源于在更深层中视觉基础的渐进退化。我们提出了一种新颖的注意力修改方法,结合选择性标记强调和头部特定调节,以在生成过程中保持视觉基础。我们的方法引入了两个关键组成部分:(1)双流标记选择机制,识别和优先考虑局部信息和空间重要的视觉标记,以及(2)头部特定的注意力调节策略,根据各个注意力头部的视觉敏感性来差异性放大视觉信息处理。通过在MSCOCO数据集上进行大量实验,我们展示了我们的方法将幻觉率相对基线模型降低了高达62.3%,同时保持了可比较的任务性能。我们的分析表明,通过有选择地调节具有不同视觉敏感性水平的注意力头部之间的标记,可以显著改善视觉基础,而无需进行模型重新训练。