每日精选AI研究论文及翻译
近期研究进展凸显了基于GRPO的强化学习方法及其基准测试在提升文本到图像(T2I)生成中的重要性。然而,当前采用逐点奖励模型(RM)对生成图像进行评分的方法易受奖励欺骗的影响。我们发现,当图像间微小的评分差异在归一化后被放大时,会产生虚假优势,驱使模型过度优化以追求微不足道的增益,最终导致图像生成过程不稳定。为解决这一问题,我们提出了Pref-GRPO,一种基于成对偏好奖励的GRPO方法,它将优化目标从分数最大化转向偏好拟合,确保了更稳定的训练过程。在Pref-GRPO中,图像在每组内通过偏好RM进行成对比较,并以胜率作为奖励信号。大量实验表明,PREF-GRPO能够区分细微的图像质量差异,提供更稳定的优势并减轻奖励欺骗。此外,现有的T2I基准测试受限于粗糙的评估标准,阻碍了对模型的全面评估。为此,我们引入了UniGenBench,一个统一的T2I基准测试,包含5大主题和20个子主题下的600个提示。它通过10个主要标准和27个子标准评估语义一致性,并利用MLLM进行基准构建与评估。我们的基准测试揭示了开源与闭源T2I模型的优缺点,并验证了Pref-GRPO的有效性。
我们推出了rStar2-Agent,这是一个拥有140亿参数的数学推理模型,通过智能体强化学习训练,旨在实现前沿性能。该模型不仅超越了当前的长链思维(CoT)方法,还展现了高级认知行为,例如在使用Python编码工具前深思熟虑,并通过代码执行反馈进行反思,以自主探索、验证和优化复杂问题解决中的中间步骤。这一能力得益于三项关键创新,使得智能体强化学习在大规模应用中更为有效:(i)一个高效的强化学习基础设施,配备可靠的Python代码环境,支持高吞吐量执行并降低高额rollout成本,使得在有限的GPU资源(64个MI300X GPU)上进行训练成为可能;(ii)GRPO-RoC,一种采用“正确时重采样”rollout策略的智能体强化学习算法,有效应对编码工具带来的环境噪声,使模型在代码环境中推理更为高效;(iii)一套高效的智能体训练方案,从非推理的监督微调(SFT)起步,逐步过渡到多阶段强化学习,以最低的计算成本培养出高级认知能力。由此,rStar2-Agent仅用一周时间,通过510步强化学习,便将一个预训练的140亿参数模型提升至业界领先水平,在AIME24和AIME25上分别取得了80.6%和69.8%的平均pass@1分数,以显著更短的响应时间超越了DeepSeek-R1(6710亿参数)。此外,rStar2-Agent-14B在数学之外,也展现了对对齐任务、科学推理及智能体工具使用的强大泛化能力。代码及训练方案已发布于https://github.com/microsoft/rStar。
现有文献通常将风格驱动和主题驱动的生成视为两个独立的任务:前者侧重于风格相似性,而后者则强调主题一致性,导致两者之间形成明显的对立。我们认为,这两个目标可以在单一框架下统一起来,因为它们本质上都涉及内容与风格的解耦与重组,这是风格驱动研究中的一个长期主题。为此,我们提出了USO,即统一风格-主题优化定制模型。首先,我们构建了一个大规模的三元组数据集,包含内容图像、风格图像及其对应的风格化内容图像。其次,我们引入了一种解耦学习方案,通过风格对齐训练和内容-风格解耦训练这两个互补目标,同时实现风格特征的对齐以及内容与风格的分离。第三,我们整合了一种称为SRL的风格奖励学习范式,以进一步提升模型的性能。最后,我们发布了USO-Bench,这是首个在多指标下联合评估风格相似性和主题保真度的基准。大量实验表明,USO在开源模型中,无论是在主题一致性还是风格相似性方面,均达到了最先进的性能。代码与模型:https://github.com/bytedance/USO
我们推出了MCP-Bench,这是一个用于评估大语言模型(LLMs)在现实多步骤任务中表现的基准测试平台,这些任务要求模型具备工具使用、跨工具协调、精确参数控制以及任务解决中的规划与推理能力。基于模型上下文协议(MCP)构建,MCP-Bench将LLMs与28个代表性的实时MCP服务器相连,覆盖金融、旅游、科学计算及学术搜索等领域,共计250种工具。与以往基于API的基准测试不同,每个MCP服务器提供一组互补工具,旨在协同工作,从而构建出具有丰富输入输出耦合的真实多步骤任务。MCP-Bench中的任务测试了代理在模糊指令下检索相关工具(无需明确工具名称)、为复杂目标规划多跳执行路径、将响应基于中间工具输出以及编排跨领域工作流的能力——这些能力在依赖明确工具规范、浅层次少步骤工作流及孤立领域操作的现有基准测试中未能得到充分评估。我们提出了一套多维度评估框架,涵盖工具层面的模式理解与使用、路径层面的规划以及任务完成度。对20个先进LLMs的实验揭示了MCP-Bench中持续存在的挑战。代码与数据请访问:https://github.com/Accenture/mcp-bench。
实践学习范式对于开发具备能力的自主AI系统至关重要,然而其发展却因经验生成效率低下而严重受阻,这一瓶颈在GAIA等复杂基准测试中尤为突出。为解决这一问题,我们推出了AWorld,一个专为大规模智能体-环境交互设计的开源系统。通过将任务分布至集群执行,AWorld相较于标准的单节点顺序执行,将经验收集速度提升了14.6倍。这一关键性加速使得广泛的强化学习变得切实可行且可扩展。利用这一能力,我们训练了一个基于Qwen3-32B的智能体,其表现显著超越了基础模型,将GAIA整体准确率从21.59%提升至32.23%。在基准测试最具挑战性的层级上,我们的智能体取得了16.33%的得分,超越了领先的专有模型性能。我们的开源系统及其成果智能体,为从高效交互到可验证模型改进的完整自主AI训练流程,提供了一个实用的蓝图。
长视频生成本质上是一个长上下文记忆问题:模型必须在不崩溃或漂移的情况下,跨越长时间范围保留并检索关键事件。然而,将扩散变换器扩展用于生成长上下文视频,从根本上受到自注意力机制二次方成本的限制,这使得内存和计算变得难以处理,且难以针对长序列进行优化。我们将长上下文视频生成重新定义为内部信息检索任务,并提出了一种简单、可学习的稀疏注意力路由模块——上下文混合(Mixture of Contexts, MoC),作为有效的长期记忆检索引擎。在MoC中,每个查询动态选择少量信息丰富的片段加上必要的锚点(如字幕、局部窗口)进行关注,采用因果路由以防止循环闭合。随着我们扩展数据并逐步稀疏化路由,模型将计算资源分配给显著的历史信息,在数分钟的内容中保持身份、动作和场景的一致性。检索效率随之提升(接近线性扩展),这实现了实际训练与合成,并在分钟级别上涌现出记忆与一致性。
多样化的指令数据对于大型语言模型的有效指令调优至关重要,因为它使模型能够泛化处理不同类型的输入。构建这种多样化的指令数据集是这一过程中的关键步骤。现有方法通常利用大型语言模型自动探索并生成多样化的指令,确保数据的多样性和质量。然而,这些方法往往忽视了实际应用中的一个重要因素:任务相关性。实际上,只有少数现实应用需要真正通用的模型;大多数应用则受益于针对其特定用例量身定制的任务相关知识。因此,开发既保持多样性又针对具体现实场景优化的指令增强方法显得尤为重要。 为此,我们引入了任务中心化指令增强(Task Centric Instruction Augmentation, TCIA)框架,该系统在保持多样性的同时,确保指令与任务的对齐。通过在离散的查询-约束空间中表示指令,TCIA生成了一组丰富的任务相关指令,使模型能够在不牺牲整体性能的情况下,泛化到这些特定任务的指令。实验表明,TCIA在四个现实世界的任务特定应用中,平均提升了开源大型语言模型8.7%的性能,在某些情况下甚至超越了领先的闭源模型。这些改进并未削弱模型的一般指令遵循能力,使得TCIA成为将大型语言模型适配于现实世界、任务导向应用的可扩展且高效的解决方案。
我们推出了首个数据驱动的多视角3D点追踪器,旨在利用多摄像头视角追踪动态场景中的任意点。与现有单目追踪器在深度模糊和遮挡问题上表现不佳,或先前需要超过20个摄像头及繁琐逐序列优化的多摄像头方法不同,我们的前馈模型直接利用实用数量的摄像头(如四个)预测3D对应关系,实现了稳健且精准的在线追踪。在已知相机姿态及基于传感器或估计的多视角深度信息下,我们的追踪器将多视角特征融合为统一点云,并应用k近邻相关性结合基于Transformer的更新机制,即使在遮挡情况下也能可靠估计长距离3D对应关系。我们在5千个合成的多视角Kubric序列上进行训练,并在两个真实世界基准测试——Panoptic Studio和DexYCB上评估,分别取得了3.1厘米和2.0厘米的中位轨迹误差。我们的方法在1至8个视角、不同观察点及24至150帧视频长度的多样化摄像头配置中表现出良好的泛化能力。通过发布我们的追踪器及训练与评估数据集,我们旨在为多视角3D追踪研究设立新标准,并为实际应用提供实用工具。项目页面请访问https://ethz-vlg.github.io/mvtracker。
大型语言模型(LLMs)的安全对齐通常涉及调节内部表征以拒绝有害请求。近期研究表明,通过消融或移除模型中的特定表征方向,这些安全机制可能被绕过。本文提出了一种相反的方法:秩一安全注入(ROSI),这是一种白盒方法,通过永久性地引导模型激活朝向拒绝调节子空间,从而增强模型的安全对齐。ROSI作为一种简单、无需微调的秩一权重修改,应用于所有残差流写入矩阵。所需的安全方向可从少量有害与无害指令对中计算得出。我们证明,ROSI在保持模型在MMLU、HellaSwag和Arc等标准基准测试中实用性的同时,一致性地提高了安全拒绝率——以Llama Guard 3评估为准。此外,我们还展示了ROSI能够通过放大“未审查”模型自身潜在的安全方向来重新对齐它们,证明了其作为有效最终安全措施的价值。我们的结果表明,针对性强、可解释的权重引导是一种成本低廉且效果显著的机制,可提升LLM安全性,与资源密集型的微调范式形成互补。
本文介绍了一种名为OneReward的统一强化学习框架,该框架仅通过一个奖励模型,便能在不同评估标准下提升模型在多项任务中的生成能力。我们采用单一视觉语言模型(VLM)作为生成奖励模型,该模型能够针对特定任务和评估标准区分优劣,从而有效应用于多任务生成模型,尤其是在数据多样且任务目标各异的情境下。我们将OneReward应用于掩码引导的图像生成,该任务可进一步细分为图像填充、图像扩展、对象移除和文本渲染等多个子任务,均涉及以二值掩码作为编辑区域。尽管这些特定领域任务共享相同的条件范式,但其底层数据分布和评估指标存在显著差异。现有方法通常依赖于任务特定的监督微调(SFT),这限制了模型的泛化能力和训练效率。基于OneReward,我们开发了Seedream 3.0 Fill,这是一个通过多任务强化学习直接在预训练基础模型上训练的掩码引导生成模型,无需进行任务特定的SFT。实验结果表明,我们的统一编辑模型在多个评估维度上均优于商业和开源竞争对手,如Ideogram、Adobe Photoshop和FLUX Fill [Pro]。代码和模型可在以下网址获取:https://one-reward.github.io。
近期基于预训练视觉-语言模型(VLMs)构建的视觉-语言-动作(VLA)模型需要大量后训练,导致高计算开销,限制了其可扩展性和部署能力。我们提出CogVLA,一种认知对齐的视觉-语言-动作框架,通过指令驱动的路由和稀疏化技术,既提升了效率又优化了性能。CogVLA借鉴了人类多模态协调机制,引入了一种三阶段渐进式架构。1)基于编码器-FiLM的聚合路由(EFA-Routing)将指令信息注入视觉编码器,有选择地聚合并压缩双流视觉标记,形成指令感知的潜在表示。2)在此紧凑视觉编码基础上,基于LLM-FiLM的剪枝路由(LFP-Routing)通过剪除与指令无关的视觉基础标记,将动作意图引入语言模型,实现标记级稀疏。3)为确保压缩后的感知输入仍能支持准确连贯的动作生成,我们引入了V-L-A耦合注意力(CAtten),它结合了因果视觉-语言注意力与双向动作并行解码。在LIBERO基准测试和真实世界机器人任务上的广泛实验表明,CogVLA以97.4%和70.0%的成功率分别达到了最先进的性能,同时相比OpenVLA,训练成本降低了2.5倍,推理延迟减少了2.8倍。CogVLA已开源,公开于https://github.com/JiuTian-VL/CogVLA。
大型语言模型(LLMs)在说服性对话中往往难以平衡对错误信息的轻信与对有效纠正的抗拒,这是其可靠部署面临的关键挑战。为此,我们提出了DuET-PD(双维度信任评估框架),该框架通过双重维度评估多轮对话中的立场变化动态:说服类型(纠正性/误导性)和领域(基于MMLU-Pro的知识领域,以及基于SALAD-Bench的安全领域)。研究发现,即便是GPT-4o这样的顶尖模型,在持续误导性说服下,其在MMLU-Pro上的准确率也仅为27.32%。此外,结果还揭示了一个令人担忧的趋势:较新的开源模型呈现出日益增强的迎合性。为解决这一问题,我们引入了Holistic DPO训练方法,该方法平衡了正面与负面说服示例。与提示或仅抗性训练不同,Holistic DPO不仅增强了对错误信息的鲁棒性,还提升了对纠正的接受度,使得Llama-3.1-8B-Instruct在安全语境下面对误导性说服时的准确率从4.21%大幅提升至76.54%。这些贡献为开发更可靠、适应性更强的多轮对话LLMs提供了路径。代码已发布于https://github.com/Social-AI-Studio/DuET-PD。
配备检索、记忆或外部API的工具增强型语言模型正在重塑人工智能领域,然而其理论优势仍未得到充分探索。本文通过展示在工具内学习(外部检索)相较于权重内学习(记忆)在事实回忆方面的优势,来探讨这一问题。我们证明,模型仅凭其权重所能记忆的事实数量从根本上受限于其参数规模。相反,我们证实,通过一种简单高效的电路构建,工具使用能够实现无限制的事实回忆。这些结论在控制实验中得到了验证,其中使用工具的模型始终优于依赖记忆的模型。我们进一步表明,对于预训练的大型语言模型,教授工具使用和通用规则比将事实微调至记忆中更为有效。本研究不仅提供了理论基础,还通过实证确立了工具增强型工作流程不仅实用,而且在可扩展性上具有可证明的优势。
得益于视频生成模型的最新成功,视频对象移除技术已取得显著进展。然而,在处理对象带来的副作用,如阴影和反射时,现有方法因缺乏成对视频数据作为监督而难以彻底消除这些影响。本文提出了ROSE(移除对象及其副作用)框架,系统性地研究了对象对环境的五种常见影响:阴影、反射、光照、半透明和镜面效应。鉴于收集展示上述效应的成对视频数据面临挑战,我们利用3D渲染引擎生成合成数据。我们精心构建了一个全自动数据准备流程,模拟出包含多样场景、对象、拍摄角度和相机轨迹的大规模成对数据集。ROSE实现为一个基于扩散变换器的视频修复模型。为了定位所有与对象相关的区域,整个视频被输入模型进行基于参考的擦除。此外,引入额外监督以显式预测受副作用影响的区域,这些区域可通过成对视频间的差异掩码揭示。为了全面评估模型在各种副作用移除上的表现,我们提出了一个新的基准测试ROSE-Bench,包含常见场景及五种特殊副作用,用于综合评估。实验结果表明,ROSE在视频对象擦除任务上优于现有模型,并能很好地泛化到真实世界视频场景中。项目页面请访问:https://rose2025-inpaint.github.io/。
我们推出FakeParts,这是一种新型深度伪造技术,其特点是对原本真实的视频进行细微、局部的空间区域或时间片段修改。与完全合成的内容不同,这些局部篡改——从改变面部表情到替换物体及修改背景——与真实元素无缝融合,使其极具欺骗性且难以识别。为填补检测能力的关键空白,我们提出了FakePartsBench,这是首个专门设计用于全面捕捉局部深度伪造的大规模基准数据集。该数据集包含超过25,000个视频,配有像素级和帧级篡改标注,为检测方法的全面评估提供了条件。我们的用户研究表明,与传统深度伪造相比,FakeParts使人类检测准确率降低了30%以上,同时在最先进的检测模型中也观察到了类似的性能下降。此研究揭示了当前深度伪造检测方法中的一个紧迫漏洞,并为开发针对局部视频篡改的更鲁棒方法提供了必要资源。
我们推出Dress&Dance,这是一个视频扩散框架,能够生成高质量、持续5秒、24帧率、分辨率为1152x720的虚拟试穿视频,展示用户穿着指定服装并根据给定参考视频进行动作。我们的方法仅需一张用户照片,支持多种上衣、下装及连衣裙的试穿,同时还能一次性完成上下装的同步试穿。该框架的核心在于CondNet,一种创新的条件网络,它利用注意力机制整合多模态输入(文本、图像和视频),从而提升服装定位与动作的逼真度。CondNet通过多阶段渐进的方式,在异质训练数据上进行训练,结合有限的视频数据和更易获取的大规模图像数据集。Dress&Dance在现有开源及商业解决方案中表现卓越,提供了高质量且灵活的试穿体验。
三维内容本质上具有多模态特性,能够映射到不同的模态中(例如RGB图像、RGBD图像和点云)。每种模态在三维资产建模中展现出独特的优势:RGB图像蕴含丰富的三维纹理,而点云则定义了精细的三维几何结构。然而,现有的大多数原生三维生成架构要么主要局限于单一模态范式,从而忽视了多模态数据的互补优势;要么仅专注于三维结构,限制了可用训练数据集的规模。为了全面利用多模态进行三维建模,我们提出了TriMM,这是首个从基础多模态(如RGB、RGBD和点云)中学习的原生三维前馈生成模型。具体而言,1) TriMM首先引入了协作多模态编码,该编码在整合各模态特定特征的同时,保留了它们独特的表示优势。2) 此外,通过引入辅助的二维和三维监督,提升了多模态编码的鲁棒性和性能。3) 基于嵌入的多模态编码,TriMM采用三平面潜在扩散模型生成高质量的三维资产,显著增强了纹理和几何细节的表现。在多个知名数据集上的广泛实验表明,TriMM通过有效利用多模态,在仅使用少量训练数据的情况下,实现了与大规模数据集训练模型相媲美的性能。此外,我们在最新的RGB-D数据集上进行了额外实验,验证了将其他多模态数据集融入三维生成的可行性。
随着与大型语言模型(LLMs)的多轮对话日益延长且复杂,用户如何更好地评估和回顾其对话目标的进展?我们推出了OnGoal,一款旨在帮助用户更有效管理目标进展的LLM聊天界面。OnGoal通过LLM辅助评估提供实时的目标对齐反馈,结合实例解释评估结果,并展示目标随时间推移的概览,从而使用户能够更高效地驾驭复杂对话。在一项涉及20名参与者的写作任务研究中,我们将OnGoal与无目标追踪的基础聊天界面进行了对比评估。使用OnGoal的参与者在达成目标时花费的时间和精力更少,同时探索新的提示策略以克服沟通障碍,这表明目标追踪与可视化能够增强LLM对话中的参与度和韧性。我们的研究结果为未来LLM聊天界面的设计提供了启示,旨在改善目标传达、减轻认知负荷、增强交互性,并通过反馈提升LLM性能。
人类社交行为本质上是多模态的,这要求开发强大的视听模型以进行感知。本文中,我们提出了Social-MAE,这是一种基于扩展版对比视听掩码自编码器(CAV-MAE)的预训练视听模型,该模型在社交视听数据上进行了预训练。具体而言,我们改进了CAV-MAE,使其能够接收更多帧作为输入,并在大规模人类社交互动数据集(VoxCeleb2)上以自监督方式进行预训练。我们通过在多种社交与情感下游任务——即情绪识别、笑声检测及表面性格评估——上微调并评估该模型,证明了其有效性。该模型在多模态情绪识别和笑声识别上取得了最先进的成果,在表面性格评估上也展现了竞争力,充分证明了领域内自监督预训练的有效性。代码及模型权重可在此处获取:https://github.com/HuBohy/SocialMAE。