每日精选AI研究论文及翻译
近日,递归或循环语言模型通过潜在状态上的迭代计算深化推理,成为模型规模扩展的新方向。我们将这种扩展原理从单一模型推广至多智能体系统,并提出核心问题:智能体协作能否通过递归实现规模扩展?为此,我们提出递归多智能体框架RecursiveMAS,将整个系统构建为统一潜在空间内的递归计算。该框架通过轻量级递归链接模块将异构智能体连接为协作循环,实现分布内潜在思维的生成与跨智能体潜在状态传递。为优化框架性能,我们开发内外双循环学习算法,通过递归轮次间基于梯度的共享信用分配,实现全系统迭代协同优化。对运行时复杂度与学习动态的理论分析表明,RecursiveMAS较传统基于文本的多智能体系统更具效率,并能保持递归训练中的梯度稳定性。实验方面,我们在4种典型智能体协作模式下实例化RecursiveMAS,并在涵盖数学、科学、医学、搜索和代码生成的9个基准测试中评估。与先进单/多智能体及递归计算基线相比,RecursiveMAS平均准确率提升8.3%,端到端推理速度加快1.2-2.4倍,令牌使用量减少34.6%-75.6%。代码与数据详见https://recursivemas.github.io。
如何可靠地将专业的人类知识从文本迁移至大语言模型,始终是人工智能领域的核心挑战。基于领域语料库的微调虽能显著提升模型能力,但该过程缺乏反馈机制:当模型在领域任务中失败时,我们无法诊断训练数据存在何种缺陷,唯一对策只能是盲目追加数据。本文提出,当从源语料提取的结构化知识表征同时作为训练数据与评估的共同基础时,完整的数据工程生命周期可与软件开发生命周期形成精确的操作性映射:训练数据转化为规定模型应学内容的源代码,模型训练相当于编译过程,基准测试如同单元测试,而基于失败的数据修复则对应调试环节。在此对应关系下,模型失败可分解为概念层面的缺失和推理链断裂,并能追溯至数据中的具体缺陷,通过定向修补进行修复。每个修复周期都能在不同模型规模和架构上实现持续改进,且不损害通用能力。我们将这一原理形式化为"数据编程",并在自然科学、工程学、生物医学和社会科学等十六个学科中实现该框架,同步开源了结构化知识库、基准测试套件和训练语料库。通过证明训练数据与模型行为之间存在可追溯、可系统性修复的结构化关联,本研究为将人类专业知识可靠地工程化注入语言模型奠定了理论基础。
现实世界数据可视化(DV)需要具备原生环境适配能力、跨平台演进能力以及主动意图对齐能力。然而现有基准测试常受限于代码沙箱隔离、单一语言的仅创建型任务,以及完美意图的强假设。为弥补这些不足,我们推出DV-World基准测试集,包含260个任务,旨在全面评估数据可视化智能体在真实业务场景中的表现。该基准涵盖三大领域:DV-Sheet专注于原生电子表格操作,包括图表与仪表板创建及诊断修复;DV-Evolution要求在不同编程范式下适配和重构参考可视化作品以匹配新数据;DV-Interact通过模拟真实世界模糊需求的用户仿真器,测试智能体的主动意图对齐能力。我们提出的混合评估框架融合了数值精度的表格值对齐方法,以及基于多模态大语言模型的语义视觉评估体系。实验表明,当前最先进模型整体性能不足50%,暴露出处理现实数据可视化复杂挑战时的关键缺陷。DV-World为引导技术发展迈向企业工作流所需的综合专业能力提供了真实测试平台。项目数据与代码已开源:https://github.com/DA-Open/DV-World{项目页面}。
得益于智能体技术的发展,自主科研能力实现了显著突破。其中关键环节在于精准定位相关科学文献——无论是为研究问题探索现有知识体系,还是为验证假设和支撑论点获取证据。为评估智能体驱动这一过程的能力,我们推出专用于自主文献发现的基准测试平台AutoResearchBench。该平台包含两项互补任务类型:(1)深度研究:通过渐进式多步探询定位特定目标论文;(2)广度研究:全面收集满足给定条件的论文集合。相较于以往基于智能体网页浏览的基准测试,AutoResearchBench具有三大特色:研究导向性,要求深入理解科学概念;文献聚焦性,需要精细利用详细信息;开放终结性,涉及未知数量的合格论文,需进行全局审慎推理与搜索。这些特性使AutoResearchBench特别适合评估自主科研能力,同时也带来极大挑战。即使是最强大的大语言模型,在BrowseComp等通用网页浏览基准测试中表现优异,但在深度研究任务中仅达到9.39%准确率,广度研究任务中仅取得9.31%交并比,而其他强基线模型表现均低于5%。我们公开数据集、评估流程及代码(https://github.com/CherYou/AutoResearchBench)以促进该领域后续研究。
统一多模态理解/生成模型通过将细粒度理解融入其思维链(CoT)过程,显著提升了图像编辑性能。然而,一个关键问题尚未得到充分探索:何种形式的CoT与训练策略能共同提升理解粒度与泛化能力?为此,我们提出Meta-CoT范式,通过两级分解实现单图像编辑操作,其具备两个关键特性:(1)可分解性。我们发现任何编辑意图均可表示为三元组——(任务、目标、所需理解能力)。受此启发,Meta-CoT对编辑任务和目标进行双重解构,生成任务特定CoT并遍历所有目标上的编辑操作。这种分解增强了模型对编辑操作的理解粒度,并引导其在训练中学习三元组的每个元素,显著提升编辑能力。(2)泛化性。在第二级分解中,我们将编辑任务进一步拆解为五个基础元任务。研究发现,仅需对这五个元任务与三元组的其余两个元素进行联合训练,即可在多样化的未知编辑任务上实现强泛化能力。为更好地对齐模型编辑行为与CoT推理过程,我们引入CoT-编辑一致性奖励机制,促使模型在编辑过程中更精准有效地利用CoT信息。实验表明,本方法在21项编辑任务中实现整体15.8%的性能提升,且仅通过少量元任务训练即可有效泛化至未见过的编辑任务。代码、基准测试集及模型已发布于https://shiyi-zh0408.github.io/projectpages/Meta-CoT/。
统一多模态模型(UMMs)将视觉理解与生成能力整合于单一框架。在文生图(T2I)任务中,这种统一特性使UMMs能在初始生成后对输出进行优化,有望突破性能上限。当前基于UMM的优化方法主要遵循"编辑式优化"(RvE)范式,即通过生成编辑指令来修正未对齐区域,同时保留已对齐内容。然而编辑指令往往仅能粗略描述提示词与图像间的偏差,导致优化不彻底。此外,像素级保留策略虽为编辑所需,却过度限制了有效的优化修改空间。为突破这些局限,我们提出"再生式优化"(RvR)新框架,将优化重构为条件图像再生而非编辑。RvR摒弃编辑指令与严格内容保留机制,转而根据目标提示词和初始图像的语义标记进行图像再生,从而在更大修改空间内实现更完整的语义对齐。大量实验表明,RvR将Geneval指标从0.78提升至0.91,DPGBench从84.02提升至87.21,UniGenBench++从61.53提升至77.41,验证了其有效性。
在本研究中,我们提出互促生成框架(Mutual Forcing),用于实现长时域音视频同步的快速自回归音视频生成。该方法着力解决两大核心挑战:联合音视频建模与快速自回归生成。为简化联合音视频优化,我们采用两阶段训练策略:先训练单模态生成器,再将其耦合为统一音视频模型进行配对数据联合训练。针对流式生成需求,我们探索能否直接训练原生快速因果音视频模型,而非沿用现有流式蒸馏流程(通常需先训练双向模型,再通过多阶段蒸馏转为因果生成器)。我们的解决方案即互促生成——该框架直接基于原生自回归模型,将少步生成与多步生成整合于单一权重共享模型中,实现自蒸馏与训练-推理一致性的提升。多步模式通过自蒸馏优化少步生成效果,而少步模式在训练时生成历史上下文以提升训练-推理一致性;由于两种模式共享参数,这两种效果在单一模型内形成相互促进机制。相较于Self-Forcing等现有方法,互促生成无需额外双向教师模型,支持更灵活的训练序列长度,降低训练开销,并允许模型直接从真实配对数据而非固定教师模型中学习改进。实验表明,互促生成在仅使用4至8步采样的情况下,即可达到或超越需约50步采样的强基线模型,在效率与质量上均展现出显著优势。项目页面详见https://mutualforcing.github.io。
近期大型音频语言模型的进展已将思维链推理扩展至听觉领域,使模型能够处理日益复杂的声学与语音任务。受文本推理模型成功经验的驱动,当前主流范式过度依赖验证奖励强化学习来激发并维持这些扩展推理链。然而,当模型被严格优化以将丰富连续的听觉语境提炼为孤立可验证的文本标签时,一个根本性问题随之产生:我们究竟是在培育真正的音频智能,还是将连续感知媒介降维成离散谜题?我们将此称为"可验证奖励陷阱"。虽然验证奖励强化学习在标准化客观基准测试中表现卓越,但它系统性地削弱了音频模型在真实场景中的对话质感。通过孤立正确性优先于声学细微差别的优化方式,该方法将动态交互简化为机械的"应答机器",严重损害了韵律自然度、情感连续性及用户沉浸感,尤其在长轮对话中更为明显。为弥合机械客观验证与真实感官共情之间的鸿沟,我们推出Step-Audio-R1.5模型,标志着音频推理向人类反馈强化学习的范式转变。综合评估表明,Step-Audio-R1.5不仅保持了强大的分析推理能力,更深刻重塑了交互体验,为深度沉浸式长轮语音对话重新划定了能力边界。
尽管扩散模型能生成高保真度的视频片段,但将其转化为连贯的叙事引擎仍具挑战。现有智能管道通过链式模块实现自动化创作,但因依赖独立的手工提示而存在语义漂移和级联失效问题。我们提出Co-Director——一种将视频叙事形式化为全局优化问题的分层多智能体框架。为确保语义连贯性,我们引入分层参数化方法:多臂老虎机全局识别潜力创意方向,而局部多模态自优化循环则缓解身份漂移并保障序列级一致性。该机制在探索新颖叙事策略与利用有效创意配置之间实现平衡。为进行评估,我们构建了GenAD-Bench数据集,包含400个虚构产品的个性化广告场景。实验表明Co-Director显著优于现有最优基线,其原理化方法可无缝推广至更广泛的影视叙事领域。项目页面:https://co-director-agent.github.io/
为定制策略部署防护机制仍具挑战:通用安全模型难以捕捉任务特定需求,而直接提示大语言模型存在边界案例表现不稳定和推理成本高的问题。训练定制分类器虽能兼顾准确性与效率,却需要大量标注数据且获取成本高昂。我们提出BARRED框架(通过反思与辩论实现边界对齐优化),仅需任务描述和少量未标注样本即可生成忠实且多样化的合成训练数据。该方法将领域空间分解为多个维度以确保全面覆盖,并采用多智能体辩论机制验证标签正确性,从而生成高保真度的训练语料。在多种定制策略上的实验表明,基于我们合成数据微调的小型语言模型持续优于最先进的专有大语言模型(包括推理模型)及专用防护模型。消融研究证实,维度分解与基于辩论的验证对确保有效微调所需的多样性和标签保真度至关重要。BARRED框架消除了对大量人工标注的依赖,为精准定制防护机制提供了可扩展的解决方案。
在线策略蒸馏(OPD)在将前沿模型或领域专用模型的推理能力迁移至小型学生模型方面展现出巨大潜力。尽管在静态单轮任务中表现优异,但其在多轮智能体场景下的行为机制仍待深入探索。本研究揭示了传统OPD在此类场景中的核心缺陷——轨迹级KL不稳定性。具体表现为:KL散度随任务成功率下降而上升,即便训练收敛后KL值仍维持高位,导致训练过程失稳。这种不稳定性源于轮次间的误差累积:随着错误逐步叠加,学生模型会偏离教师模型的有效支持域,使得监督信号失效。为此,我们提出时序课程在线策略蒸馏(TCOD),通过课程化调度控制学生模型接触的轨迹深度,使其从短轨迹到长轨迹渐进学习。在ALFWorld、WebShop和ScienceWorld三个多轮智能体基准测试中,四组师生模型的实验结果表明:TCOD能有效抑制KL值攀升,在整个训练周期内保持KL稳定性,相较传统OPD将智能体性能提升最高达18分。进一步评估发现,TCOD甚至能超越教师模型的表现,并在教师模型失败的任务上展现泛化能力。
终端智能体已展现出自主命令行执行的强大潜力,但其训练过程仍受限于高质量多样化执行轨迹的稀缺性。现有方法通过合成大规模终端任务实例进行轨迹采样以缓解这一瓶颈,但主要侧重于任务数量的扩展,对智能体实际训练所经历的执行轨迹多样性控制有限。本文提出SkillSynth——基于场景介导技能图的自动化终端任务合成框架。该框架首先构建大规模技能图,以场景作为中间过渡节点连接多样化的命令行技能;随后从图中采样路径作为现实工作流的抽象表示,并通过多智能体系统将其实例化为可执行任务。通过以图采样工作流路径为基础进行任务合成,SkillSynth能显式控制解决合成任务所需的最小执行轨迹多样性。在Terminal-Bench上的实验验证了该框架的有效性。值得一提的是,SkillSynth合成的任务实例已用于训练Hy3 Preview模型,显著提升了其在终端环境下的智能体能力。
传统交互式STEM课件制作需掌握HTML/CSS/JavaScript技术,为教育工作者设置了门槛。尽管生成式AI能产出HTML代码,但现有工具仅能生成静态演示而非交互式仿真,长文档处理能力不足,且缺乏教学准确性保障机制。此外,完整修改需200-600秒的重新生成时间,严重干扰创作流程。我们提出MAIC-UI零代码创作系统,支持教育工作者基于教材、PPT和PDF快速创建并编辑交互式课件。该系统具备三大特性:(1)通过多模态结构化知识分析确保教学严谨性;(2)采用内容对齐与视觉优化分离的双阶段生成-验证-优化流程;(3)基于点击定位编辑与统一差异增量生成技术,实现10秒内的迭代周期。40人参与的对照实验表明,相较于直接文本转HTML生成,MAIC-UI将编辑迭代次数从7.0次降至4.9次,显著提升可学习性与可控性。在53名高中生中进行的三个月课堂实践显示,该系统能增强学习自主性并缩小成绩差距——实验班STEM科目成绩提升9.21分,而对照班下降2.32分。代码已开源:https://github.com/THU-MAIC/MAIC-UI。
将去噪生成模型与人类偏好或可验证奖励对齐仍是一个关键挑战。虽然基于策略梯度的在线强化学习(RL)提供了原则性的训练后优化框架,但由于这类模型的似然函数难以处理,其直接应用受到阻碍。现有研究要么通过优化采样轨迹诱导的马尔可夫决策过程(MDP)实现稳定但低效的优化,要么采用基于扩散证据下界(ELBO)的似然替代函数,但后者目前在视觉生成任务中表现欠佳。我们的核心发现是:基于ELBO的方法实际上可以实现稳定与高效兼得。通过降低替代函数方差并控制梯度步长,该方法可超越基于MDP的方法。为此,我们提出变分GRPO(V-GRPO),该方法将ELBO替代函数与群组相对策略优化(GRPO)算法相结合,并辅以一系列简单而关键的技术。我们的方法易于实现,与预训练目标保持一致,且规避了基于MDP方法的局限性。在文本到图像生成任务中,V-GRPO实现了最先进的性能,同时相比MixGRPO提速2倍,较DiffusionNFT提速3倍。
尽管大规模视频扩散模型已展现出生成高分辨率、高语义含量内容的卓越能力,但由于提示词敏感性、时序不一致性及过高推理成本等关键问题,其预训练性能与实际部署需求之间仍存在显著差距。为弥补这一差距,我们提出了一套全面的后训练框架,通过四个协同阶段系统性地将预训练模型与用户意图对齐:首先采用监督微调(SFT)将基础模型转化为稳定的指令遵循策略;随后通过基于人类反馈的强化学习(RLHF)阶段,利用专为视频扩散设计的创新性群组相对策略优化(GRPO)方法提升感知质量与时序连贯性;继而通过专用语言模型进行提示词增强以优化用户输入;最终通过推理优化提升系统效率。这些组件共同构成了系统化提升视觉质量、时序连贯性与指令遵循能力的方案,同时保留预训练阶段习得的可控性。该框架为构建稳定、适应性强且实际部署高效的可扩展后训练流程提供了实用蓝图。大量实验表明,这一统一流程在严格遵守采样成本限制的前提下,能有效减少常见伪影,显著提升可控性与视觉美感。
众包成对评估已成为评估基础模型的一种可扩展方法。然而,将其应用于文本转语音(TTS)领域时,由于语言多样性和语音感知的多维特性,会引入较高方差。我们提出一种受控的多维成对评估框架,用于多语言TTS评估,该框架将语言控制与基于感知的标注相结合。通过使用10种印度语言中超过5000句母语及语码混合句子,我们评估了7个最先进的TTS系统,并从1900多名母语评分者处收集了超过12万组成对比较数据。除整体偏好外,评分者还需在6个感知维度上进行评判:可懂度、表现力、音质、生动性、噪声和幻听。采用布拉德利-特里模型构建多语言排行榜,通过SHAP分析解读人类偏好,并综合感知维度分析排行榜可靠性及模型优势与权衡。
大型视觉语言模型(VLMs)正日益广泛地用于评估其他模型的输出,涵盖视觉问答等图像到文本(I2T)任务以及文本到图像(T2I)生成任务。尽管依赖度不断增长,这些评估型VLM的可靠性仍缺乏深入研究。本文系统评估了评估型VLM在I2T和T2I任务中的可靠性,通过引入针对性扰动——包括物体幻觉、空间推理、事实依据和视觉保真度等关键误差维度——来降低输出质量。这些扰动旨在检验评估型VLM能否在评估中可靠识别这些质量退化误差。基于涵盖40个扰动维度、超过4000个扰动实例的综合基准,我们采用单答案评分、成对比较和参考引导三种范式对4个主流VLM进行评估。研究发现:当前VLM评估器存在显著盲区——对扰动输出的漏检率最高可超过50%;尤其难以识别细粒度组合误差与空间误差;对违背输入图像的幻觉内容常表现出不敏感。成对比较法虽更可靠,但失误率依然存在。这些结果揭示了当前评估型VLM的不稳定性,警示其在基准测试和开发决策中的应用需保持审慎。相关代码与数据已公开。
近期,文本驱动人体运动生成技术实现了从自然语言描述中合成逼真运动序列的能力。然而,现有方法大多基于身份中立的假设,采用标准人体表征生成动作,忽略了身体形态对运动动态的显著影响。实际上,人体比例、质量分布、年龄等属性会显著影响动作执行方式,忽视这种耦合关系往往导致物理不一致的运动生成。我们提出一种身份感知的运动生成框架,通过显式建模身体形态与运动动态的关联关系来解决这一问题。该方法摒弃传统几何测量方式,转而采用包含自然语言描述和视觉线索的多模态信号表征身份信息。我们进一步引入运动-形态联合生成范式,可同步合成运动序列与身体形状参数,使身份特征直接调制运动动态。基于动作捕捉数据集和大规模真实场景视频的广泛实验表明,该方法在保持高运动质量的同时,显著提升了运动真实感与运动-身份一致性。项目页面:https://vjwq.github.io/IAM
人工智能体正日益广泛地部署于复杂的领域专用工作流——它们需要操作需要数十次点击和表单填写的企业级网络应用,协调横跨检索、提取与整合的多步骤研究流程,在陌生代码库中自动执行代码审查,并处理需要精深领域知识的客户升级事务。每个新任务领域都需要耗费大量心力的专家级约束框架工程:即设计提示词、工具、协调逻辑和评估标准,使基础模型发挥效能。我们提出了一种双层级框架来自动化这一过程。在第一层级,约束框架进化循环针对单一任务优化工作体代理的约束框架H:工作体代理W_H执行任务,评估体代理V以对抗性方式诊断失败并评分性能,进化体代理E则基于完整历史尝试记录修改约束框架。在第二层级,元进化循环跨不同任务优化进化协议Λ=(W_H, H^(0), V, E)本身,通过学习获得最优协议Λ^(最佳),使得任何新任务都能实现约束框架的快速收敛——从而让智能体适配全新领域时完全无需人工进行约束框架工程。我们形式化了其与元学习的对应关系,并给出了双重算法。该框架将手动的约束框架工程转化为自动化流程,并更进一步——实现了自动化设计机制本身的自我进化。
能够自主操作图形用户界面(GUI)的智能体具有彻底改变数字生产力的潜力。然而,实现真正的数字自主性不仅需要反应式的元素匹配,更需建立对界面动态的预测性心智模型,以及预判交互后"数字世界状态"的能力。尽管现代视觉语言模型(VLMs)具备感知能力,现有基准测试仍存在两极分化——要么关注黑盒任务完成度,要么侧重静态浅层定位,均无法评估智能体是否真正理解GUI的隐式功能与转换逻辑。为此,我们推出AutoGUI-v2这一综合性基准,专门评估深度GUI功能理解与交互结果预测能力。通过采用新型VLM-人类协同流程,递归解析多平台截图为层级化功能区域以生成多样化评估任务,该基准涵盖六大操作系统的2,753项任务,严格检验智能体在区域/元素级语义理解、定位及动态状态预测方面的表现。评估结果揭示VLMs存在显著能力分化:基于智能体数据微调的开源模型(如Qwen3-VL)擅长功能定位,而商业模型(如Gemini-2.5-Pro-Thinking)在功能描述方面占优。关键发现是,所有模型对非常见操作的复杂交互逻辑均表现不佳,表明深度功能理解仍是重大挑战。通过系统化衡量这些基础能力,AutoGUI-v2为推进下一代GUI智能体发展提供了全新视角。
图形用户界面(GUI)元素定位(根据自然语言指令在屏幕截图中精确定位元素)是GUI交互智能体的基础能力。对于需要低延迟的GUI智能体而言,在手机等资源受限设备上直接部署该功能日益关键。然而当前视觉定位方法通常采用参数量超过25亿的大型视觉语言模型(VLM),受限于内存和计算资源而难以在设备端运行。为此,本文提出GoClick——仅需2.3亿参数的轻量化GUI元素定位VLM,其视觉定位精度可与参数量大得多的模型相媲美。虽然直接缩减仅解码器架构VLM是设计轻量模型的直观方案,但实验表明该方法效果欠佳。我们最终采用编码器-解码器架构,该架构在小参数规模下对GUI定位任务表现更优。此外,小规模VLM的有限能力促使我们开发渐进式数据优化流程:通过任务类型筛选和数据比例调整,从1080万原始数据集中提炼出380万高质量核心数据集。基于该数据集训练的GoClick实现了显著的定位精度提升。实验表明,GoClick在多个GUI元素定位基准测试中表现优异,同时保持小体积和高推理速度。当集成至端-云协同框架时,GoClick能辅助云端任务规划器实现精准元素定位,提升GUI智能体任务成功率。我们希望该方法能为GUI智能体领域提供有价值的探索。
随着近期立法对公平可信人工智能发展的强调,推荐系统公平性评估日益重要。这催生了基于不同公平定义的量化评估指标,但许多指标在提出和使用时缺乏稳健性分析,导致对其局限性的认知不足。例如,我们尚不清楚何种模型输出会产生极端公平分值、指标得分的经验分布规律如何,以及是否存在无法计算的情形(如除零错误)。这些问题导致指标得分难以解读,且在实际应用中难以选择合适的评估指标。 本论文通过系列研究系统评估并克服现有推荐系统公平性评估指标在理论、实证与概念层面的局限性。我们针对不同公平概念(按评估对象分为用户端与物品端)和不同评估粒度(群体与个体)的离线评估指标展开研究。首先从理论与实证角度分析现有指标,揭示其可解释性、表达能力及适用性方面的缺陷;其次提出创新的评估方法与指标以突破这些局限;最后结合指标特性提出使用指南,为实际场景中的公平性评估指标选择提供精准依据。 总体而言,本论文推动了推荐系统公平性离线评估领域的前沿发展。