每日精选AI研究论文及翻译
扩散语言模型有望实现快速并行生成,而自回归模型因其因果结构与语言建模天然契合,通常在生成质量上更胜一筹。这引出一个根本性问题:能否实现高吞吐量、高GPU利用率与自回归级质量三者协同?现有方法未能有效平衡这两方面——要么采用较弱模型进行顺序草稿生成(推测解码)而优先保证自回归特性,导致草稿效率低下;要么为扩散模型引入某种左到右(类自回归)解码逻辑,但仍存在质量下降问题并丧失并行潜力。我们提出TiDAR,一种序列级混合架构:通过特殊设计的结构化注意力掩码,在单次前向传播中实现扩散式草稿生成(思考)与自回归式最终采样(表达)。该设计充分利用GPU空闲计算密度,在草稿生成与验证能力间达成强力平衡。此外,TiDAR作为独立模型具备服务友好性(低开销)。我们在1.5B和8B规模上对TiDAR与自回归模型、推测解码及扩散变体进行了生成与似然任务的全面评估。得益于并行草稿生成、采样机制及精确KV缓存支持,TiDAR在实测吞吐量上超越推测解码,在效率和质量上均优于Dream、Llada等扩散模型。尤为重要的是,TiDAR是首个在实现每秒4.71至5.91倍token生成量的同时,成功弥合与自回归模型质量差距的架构。
我们推出Lumine,这是首个开放配方,用于开发能够在具有挑战性的3D开放世界环境中实时完成长达数小时复杂任务的通用智能体。Lumine采用了一种类人交互范式,通过视觉语言模型驱动,将感知、推理与行动以端到端的方式统一起来。它以5赫兹的频率处理原始像素数据,生成精确的30赫兹键鼠操作,并仅在必要时自适应地调用推理功能。在《原神》中训练后,Lumine成功以与人类相当的效率完成了整个五小时的蒙德主线剧情,并遵循自然语言指令,在3D开放世界探索与2D图形用户界面操作中执行了包括收集、战斗、解谜及与非玩家角色互动在内的广泛任务。除了在领域内的卓越表现,Lumine还展现了强大的零样本跨游戏泛化能力。未经任何微调,它便完成了《鸣潮》中100分钟的任务以及《崩坏:星穹铁道》首章五小时的全部内容。这些令人鼓舞的成果凸显了Lumine在不同世界与交互动态中的有效性,标志着在开放环境中迈向通用智能体的坚实一步。
命中化合物识别是早期药物研发的核心挑战,传统方法需要耗费大量实验资源。人工智能尤其是大语言模型(LLMs)的最新进展,使得能够通过虚拟筛选方法降低成本并提升效率。然而,这些工具日益增长的复杂性限制了湿实验室研究人员的使用门槛。多智能体系统通过将LLMs的可解释性与专业模型工具的精确性相结合,提供了颇具前景的解决方案。本研究提出MADD多智能体系统,能够根据自然语言查询构建并执行定制化的命中化合物识别流程。该系统采用四个协同智能体处理从头化合物生成与筛选中的关键子任务。我们在七个药物研发案例中评估MADD,证明其性能优于现有基于LLM的解决方案。借助MADD,我们率先将AI优先的药物设计方法应用于五个生物靶点,并公布了已识别的命中分子。最后,我们建立了包含300多万个化合物的查询-分子对及其对接评分的新基准数据集,以推动药物设计向智能体化方向发展。
基于扩散模型的视频生成技术能够创作逼真视频,但现有基于图像和文本的条件控制方法难以实现精确的运动调控。此前针对运动条件合成的方法通常需要对特定模型进行微调,这种方案计算成本高昂且具有局限性。我们提出Time-to-Move(TTM)——一种无需训练、即插即用的运动与外观协同控制视频生成框架,适用于图像到视频(I2V)扩散模型。我们的核心思路是利用通过剪贴拖拽或基于深度的重投影等用户友好操作获得的粗略参考动画。受SDEdit利用粗粒度布局线索进行图像编辑的启发,我们将这些粗略动画视为运动提示信号,并将该机制适配到视频领域。通过图像条件控制保持外观一致性,同时引入双时钟去噪策略——这种区域自适应方法在运动指定区域强制实现强对齐,同时在其他区域保持灵活性,从而在用户意图忠实度与自然动态表现之间取得平衡。这种对采样过程的轻量级修改无需额外训练或运行时成本,并可兼容任何骨干模型。在物体运动和相机运动基准测试上的大量实验表明,TTM在真实感和运动控制方面达到或超越了现有基于训练的基线方法。此外,TTM还引入了独特能力:通过像素级条件控制实现精确的外观调控,突破了纯文本提示的局限性。欢迎访问项目主页查看视频示例和代码:https://time-to-move.github.io/。
我们推出Motif-2-12.7B——一款新型开放权重基础模型,通过架构创新与系统级优化的结合,将大语言模型的效率边界推向新高度。该模型专为在有限算力预算下实现可扩展语言理解与强健的指令泛化能力而设计,在Motif-2.6B基础上集成分组差分注意力机制(GDA),通过分离信号通路与噪声控制通路来提升表征效率。模型基于课程驱动型数据调度策略,在包含语言、数学、科学及编程领域的5.5万亿token语料上进行预训练,该策略会动态调整数据构成比例。训练系统采用MuonClip优化器与定制高性能内核,包括融合式PolyNorm激活函数与并行Muon算法,在大规模分布式环境中实现显著吞吐量与内存效率提升。后训练阶段采用三阶段监督微调流程,依次增强通用指令遵循能力、组合推理能力及语言精确性。Motif-2-12.7B在多项基准测试中展现卓越性能,证明经过精密设计的架构扩展与优化训练方案足以媲美规模更大的模型。
通过外部工具增强大语言模型(LLMs)使其能够执行复杂的多步骤任务。然而,工具学习目前受限于静态合成数据流程——数据生成与模型训练被分割为两个独立且无交互的环节。这种方法既无法针对模型的具体弱点进行自适应聚焦,又放任噪声标签持续存在,从而降低训练效率。我们提出LoopTool框架,通过紧密集成数据合成与模型训练,构建了一个完全自动化、模型感知的数据进化闭环系统。该框架通过三个协同模块迭代优化数据与模型:(1) 贪婪能力探测(GCP)诊断模型已掌握与失败的能力;(2) 判断引导的标签验证(JGLV)利用开源评判模型发现并修正标注错误,逐步净化数据集;(3) 错误驱动的数据扩展(EDDE)基于已识别失败生成新的挑战性样本。这一闭环流程在低成本的开源生态中运行,摆脱了对昂贵闭源API的依赖。实验表明,采用LoopTool训练的8B模型显著超越其32B数据生成器,并在BFCL-v3和ACEBench基准测试中实现了同规模模型的最新最优性能。我们的工作证明,闭环自优化的数据流程能极大提升LLMs的工具使用能力。
视觉-语言-动作(VLA)模型在通用机器人操作任务中展现出巨大潜力,但其对专家示范数据的依赖限制了模型从失败中学习并进行自我纠错的能力。强化学习(RL)通过与物理环境的自主交互实现自我改进,但在真实机器人上面临样本复杂度高的挑战。我们提出基于世界模型的策略优化(WMPO),这是一种无需真实环境交互即可实现在线VLA强化学习的理论框架。与广泛使用的隐式世界模型不同,WMPO专注于基于像素的预测,使"想象"轨迹与通过网络规模图像预训练的VLA特征保持对齐。关键的是,WMPO使策略能够执行在线GRPO,其性能优于常用的离线策略方法。在仿真和真实机器人环境中的大量实验表明,WMPO具有以下优势:(i)显著提升样本效率;(ii)实现更强的综合性能;(iii)展现出自我纠错等涌现行为;(iv)表现出强大的泛化能力和终身学习特性。
用户界面(UI)开发需要将设计稿转化为功能代码,这一过程仍存在重复性高、劳动密集的特点。虽然当前视觉语言模型(VLM)能自动实现UI到代码的生成,但其仅能生成静态的HTML/CSS/JavaScript布局,缺乏交互性。为此,我们提出WebVIA——首个支持交互式UI到代码生成与验证的智能体框架。该框架包含三大组件:1)用于捕捉多状态UI截图的探索智能体;2)生成可执行交互代码的UI2Code模型;3)验证交互功能的检测模块。实验表明,WebVIA智能体相比通用智能体(如Gemini-2.5-Pro)能实现更稳定精准的UI探索。此外,我们微调后的WebVIA-UI2Code模型在生成可执行交互式HTML/CSS/JavaScript代码方面显著优于基线模型,在交互式和静态UI2Code基准测试中均表现优异。代码与模型已开源:https://webvia.github.io。
多模态大语言模型(MLLMs)在视觉语言问答任务中展现出卓越能力。尽管优势显著,这些模型在实现复杂推理任务(如数学解题)时仍面临挑战。现有研究主要集中于对专用数学数据集进行微调,然而此类数据集通常直接由教师模型蒸馏得到,仅能捕捉静态推理模式,与学生模型存在显著差距。这种对固定教师衍生数据的依赖不仅限制了模型适应训练数据边界之外的新颖或复杂问题的能力,还缺乏实现强泛化所需的迭代深度。为突破这些局限,我们提出\method——一种面向MLLMs的数学自演进框架。与传统的一次性微调范式不同,\method通过推理、反思和基于奖励的反馈循环对模型进行迭代优化。具体而言,我们通过融入前阶段推理得到的正确解题路径,并整合专用结果奖励模型(ORM)的反思实现迭代微调。为验证\method的有效性,我们在系列挑战性基准测试上开展评估,结果表明其相较骨干模型取得显著性能提升。值得注意的是,我们在MathVL-test上的实验结果超越了领先的开源多模态数学推理模型QVQ。代码与模型已开源:https://zheny2751.github.io/MathSE.github.io/。
网络智能体因缺乏针对特定环境任务及示范数据而难以适应新网站。近期研究尝试通过合成数据生成应对这一挑战,但这些方法存在数据质量问题:合成任务包含无法执行的幻觉内容,且采集的行为轨迹存在冗余或错位动作的噪声。本文提出SynthAgent——一个通过任务与轨迹双重优化来提升合成数据质量的完全合成监督框架。我们的方法首先通过对网页元素进行分类型探索来合成多样化任务,确保对目标环境的高效覆盖。在轨迹采集过程中,当检测到任务与实际观察存在冲突时,我们会对任务进行优化,在保持任务一致性的同时减少幻觉。采集完成后,我们基于全局上下文对轨迹进行优化以消除潜在噪声或错位。最终,我们利用优化后的合成数据对开源网络智能体进行微调,使其适应目标环境。实验结果表明,SynthAgent在性能上超越现有合成数据方法,验证了高质量合成监督的重要性。代码将公开于https://github.com/aiming-lab/SynthAgent。
扩散模型在使用分类器自由引导(CFG)等引导方法时展现出强大的生成能力,这类方法通过修改采样轨迹来提升输出质量。传统引导方法通常通过刻意劣化某个输出(如无条件输出)来增强目标输出,其采用启发式扰动函数(如恒等混合或模糊条件处理)。然而这些方法缺乏理论支撑,且依赖于人工设计的失真策略。本文提出对抗性Sinkhorn注意力引导(ASAG),这是一种通过最优传输理论重新解读扩散模型中注意力分值,并利用Sinkhorn算法主动干扰传输成本的新方法。ASAG并非简单破坏注意力机制,而是在自注意力层注入对抗性成本以降低查询向量与键向量的像素级相似度。这种刻意劣化能够削弱误导性的注意力对齐,从而提升条件生成与无条件生成的样本质量。ASAG在文生图扩散任务中展现出稳定改进,并在IP-Adapter、ControlNet等下游应用中增强了可控性与保真度。该方法具有轻量化、即插即用特性,无需模型重训练即可提升生成可靠性。
以OpenAI Codex、Claude Code和Cursor为代表的智能编码工具正在重塑软件工程领域。这些AI驱动的系统能够作为自主协作成员,规划并执行复杂的开发任务。在重构这一旨在提升代码内在质量而不改变外部行为的可持续软件开发核心实践中,智能体已成为积极参与者。尽管应用日益广泛,但业界对智能重构的实际运用方式、与人工重构的差异及其对代码质量的影响仍缺乏实证认知。为填补这一空白,我们通过对AIDev数据集衍生的12,256个拉取请求和14,988次提交中的15,451个重构实例展开大规模实证研究,深入分析了真实开源Java项目中AI智能体生成的重构行为。实证研究表明,在该开发范式下重构已成为常见且具目的性的活动,智能体在26.1%的提交中明确以重构为目标。重构类型分析显示,智能体的重构行为主要集中在低层次、偏向一致性的修改,如变更变量类型(11.8%)、重命名参数(10.4%)和重命名变量(8.5%),这反映出其更倾向于局部优化而非人类重构常见的高层设计变更。此外,智能体重构的动机高度集中于内在质量考量,可维护性(52.5%)和可读性(28.1%)成为主要驱动力。进一步对代码质量指标的量化评估表明,智能体重构虽改进幅度有限但具有统计显著性,尤其在中等级别变更中能有效缩减类规模与复杂度(如类代码行数中位数变化量Δ=-15.25)。
语言模型展现出卓越的自然语言生成能力,但仍易产生幻觉现象——尽管能生成语法连贯的响应,却时常输出事实性错误信息。本研究提出许可验证器(Licensing Oracle),该架构方案通过基于结构化知识图谱的形式化验证来实施真实性约束,从而从根源上抑制语言模型的幻觉生成。与依赖数据扩展或微调的统计方法不同,许可验证器在模型生成过程中嵌入了确定性验证步骤,确保仅产生事实准确的论断。我们通过对比实验评估了许可验证器的有效性,参比方法包括基线语言模型生成、事实召回微调、弃答行为微调以及检索增强生成(RAG)。实验结果表明:尽管RAG与微调能提升性能,但均无法完全消除幻觉;而许可验证器实现了完美的弃答精度(AP=1.0)和零错误答案率(FAR-NE=0.0),在事实性响应中以89.1%的准确率确保只生成有效论断。这项工作证明,对于具有结构化知识表示的领域,许可验证器这类架构创新为消除幻觉提供了充分必要的解决方案,其保障效果是统计方法无法企及的。虽然许可验证器专为解决事实性领域的幻觉问题而设计,但其框架为未来AI系统的真实性约束生成奠定了基础,开辟了构建可靠且具有认知根基模型的新路径。