每日精选AI研究论文及翻译
我们推出Seed Diffusion Preview,这是一款基于离散状态扩散的大规模语言模型,具备极其快速的推理速度。得益于非顺序、并行的生成方式,离散扩散模型显著提升了速度,有效缓解了逐令牌解码固有的延迟问题,正如近期研究(如Mercury Coder、Gemini Diffusion)所展示的那样。Seed Diffusion Preview在H20 GPU上实现了每秒2,146个令牌的推理速度,同时在一系列标准代码评估基准测试中保持了竞争力,其速度远超当前的Mercury和Gemini Diffusion模型,在代码模型的速度-质量帕累托前沿上树立了新的技术标杆。
我们推出Skywork UniPic,这是一个拥有15亿参数的自回归模型,它将图像理解、文本到图像生成以及图像编辑统一在单一架构中——无需任务特定的适配器或模块间连接器——并展示了紧凑的多模态系统能够在商用硬件上实现最先进的性能。Skywork UniPic在GenEval评分中达到0.86,超越了大多数现有统一模型;在DPG-Bench复杂生成任务中创下85.5的新纪录;在GEditBench-EN和ImgEdit-Bench的图像编辑任务中分别获得5.83和3.49的分数;并且能够在不到15GB的GPU内存(例如RTX 4090)下生成1024x1024分辨率的图像。(1) 采用解耦编码策略,利用掩码自回归编码器进行合成,SigLIP2编码器进行理解,两者共同输入共享的自回归解码器;(2) 实施渐进式、分辨率感知的训练计划,从256x256逐步扩展到1024x1024,同时动态解冻参数以平衡模型容量与稳定性;(3) 精心策划了规模达1亿的数据集,并通过任务特定的奖励模型增强,以优化生成和编辑目标。通过证明高保真多模态集成无需承担过高的资源需求,Skywork UniPic为可部署的高保真多模态AI树立了实用范式。代码和权重已在https://huggingface.co/Skywork/Skywork-UniPic-1.5B公开。
可控超长视频生成是一项基础且极具挑战性的任务。尽管现有方法在短片段生成上表现优异,但由于时间不一致性和视觉质量退化等问题,它们难以扩展到更长视频。本文首先研究并识别了三个关键因素:独立的噪声初始化、分离的控制信号归一化以及单模态引导的局限性。为解决这些问题,我们提出了LongVie,一个端到端的自回归框架,用于可控长视频生成。LongVie引入了两项核心设计以确保时间一致性:1)统一的噪声初始化策略,保持跨片段生成的一致性;2)全局控制信号归一化,确保整个视频控制空间的对齐。为缓解视觉质量退化,LongVie采用了3)多模态控制框架,整合了密集(如深度图)和稀疏(如关键点)控制信号,并辅以4)退化感知训练策略,自适应地平衡各模态随时间变化的贡献,以保持视觉质量。我们还推出了LongVGenBench,一个包含100个高分辨率视频的全面基准测试集,涵盖多样化的真实世界和合成环境,每个视频时长均超过一分钟。大量实验表明,LongVie在长程可控性、一致性和质量方面均达到了业界领先水平。
答案验证不仅对于通过将大型语言模型(LLMs)的非结构化输出与标准答案进行匹配来评估其性能至关重要,同时也作为奖励模型指导LLM的优化。大多数评估框架依赖于正则化匹配或采用通用LLMs进行答案验证,这需要对正则表达式规则或评估提示进行大量重复的定制。当前方法存在两个根本性局限:1)缺乏全面系统地评估不同LLM验证能力的基准;2)验证器开发尚处于初期阶段,现有方法既缺乏处理复杂边缘情况的鲁棒性,也缺乏跨领域的泛化能力。在本研究中,我们开发了CompassVerifier,一个精确且鲁棒的轻量级验证器模型,用于评估和结果奖励。它展示了跨数学、知识及多样化推理任务的多领域能力,能够处理包括多子问题、公式和序列答案在内的多种答案类型,同时有效识别异常/无效响应。我们引入了VerifierBench基准,该基准包含从多个数据源收集的模型输出,并通过手动分析元错误模式进行增强,以提升CompassVerifier的性能。我们预期CompassVerifier和VerifierBench将促进答案验证、评估协议及强化学习研究。代码和数据集可在https://github.com/open-compass/CompassVerifier获取。
问题定位,即识别需要修改以解决软件问题的代码位置,是软件开发中一项关键且具有挑战性的任务。自然语言问题描述与故障代码之间的语义鸿沟,要求通过代码依赖关系进行复杂的多跳推理。现有的基于大语言模型(LLM)的代理尝试通过集成仓库检索工具来解决这一问题。然而,这却将问题定位转化为一项我们称之为“仓库深度搜索”的高要求任务,该任务需要LLM在多步推理与导航过程中有效利用各类仓库检索工具。为应对这一挑战,我们提出了ToolTrain,一个两阶段的工具集成训练框架,结合了拒绝采样的监督微调与工具集成的强化学习,以增强LLM使用检索工具进行问题定位的能力。实验结果显示,经过ToolTrain训练的模型实现了最先进的性能,其中我们的32B模型在函数级定位上甚至超越了Claude-3.7。结果还表明,定位性能的提升直接转化为更优的端到端问题解决性能。这进一步证明,针对问题定位的训练是提升自动化软件开发的一种可行且有效的策略。
Transformer模型在视觉、语言和视频领域展现了卓越的成功。然而,随着任务复杂度的增加,模型规模与token数量不断膨胀,导致自注意力机制的计算成本呈二次方增长,GPU内存访问开销也随之上升。为降低自注意力计算成本,先前研究提出了token压缩技术,通过剔除冗余或信息量较低的token来实现。同时,诸如FlashAttention等融合注意力内核的开发,通过避免构建注意力矩阵及其与高带宽内存(HBM)的I/O操作,有效缓解了内存开销。但这也使得其与多数无需训练的token压缩方法不兼容,因为这些方法依赖注意力矩阵来确定token的重要性。为此,我们提出了“表征偏移”(Representation Shift),一种无需训练、模型无关的度量标准,用于衡量每个token表征的变化程度。该方法无需注意力矩阵或重新训练,即可无缝集成token压缩与FlashAttention。我们的方法进一步推广至Transformer之外的CNN及状态空间模型。大量实验表明,表征偏移实现了与FlashAttention兼容的有效token压缩,在视频-文本检索和视频问答任务中分别带来了高达5.5%和4.4%的显著加速。代码已发布于https://github.com/mlvlab/Representation-Shift。
近似最近邻搜索(ANNS)算法在近期的AI应用中变得愈发关键,尤其是在检索增强生成(RAG)和基于代理的大语言模型(LLM)应用中。本文中,我们提出了CRINN,一种ANNS算法的新范式。CRINN将ANNS优化视为一个强化学习问题,其中执行速度作为奖励信号。这一方法能够在保持精度约束的同时,自动生成速度逐步提升的ANNS实现。我们的实验评估展示了CRINN在六个广泛使用的NNS基准数据集上的有效性。与当前最先进的开源ANNS算法相比,CRINN在其中三个数据集(GIST-960-Euclidean、MNIST-784-Euclidean和GloVe-25-angular)上取得了最佳性能,并在另外两个数据集(SIFT-128-Euclidean和GloVe-25-angular)上并列第一。CRINN的成功意义远不止于ANNS优化:它验证了结合强化学习的LLM可以作为自动化复杂算法优化的有效工具,这些优化通常需要专业知识和大量手动调优。代码可在https://github.com/deepreinforce-ai/CRINN获取。
随着模型上下文协议(MCP)的迅猛发展,MCP服务器的数量已突破10,000台。然而,现有的MCP基准测试仅限于单服务器环境,且仅包含少量工具,这阻碍了对大规模现实场景中智能体能力的有效评估。为克服这一局限,我们推出了LiveMCPBench,这是首个基于MCP生态系统的综合性基准测试,包含95个现实任务,旨在跨多样服务器大规模评估LLM智能体。为了支持大规模MCP环境中可扩展且可复现的评估流程,我们精心打造了LiveMCPTool,这是一个包含70台MCP服务器和527种工具的多样化、即插即用集合。此外,我们引入了LiveMCPEval,一个LLM-as-a-Judge框架,能够在动态、时变的任务环境中实现自动化且自适应的评估,与人类评审员的一致性达到81%。最后,我们提出了MCP Copilot Agent,一个多步骤智能体,它能够为动态规划路由工具,并在整个LiveMCPTool套件中执行API交互工具。我们的评估覆盖了10个领先模型,表现最佳的模型(Claude-Sonnet-4)成功率达到了78.95%。然而,我们观察到各模型间性能差异显著,多个广泛使用的模型在LiveMCPBench复杂且工具丰富的环境中表现不佳。总体而言,LiveMCPBench为在真实、工具丰富且动态的MCP环境中基准测试LLM智能体提供了首个统一框架,为智能体能力的可扩展和可复现研究奠定了坚实基础。我们的代码和数据将公开于https://icip-cas.github.io/LiveMCPBench。
我们探索了三种策略以提升在广泛图像编辑任务上的性能:监督微调(SFT)、强化学习(RL)以及思维链(CoT)推理。为了在一个统一的框架内研究所有这些组件,我们采用了一种自回归多模态模型,该模型以统一的方式处理文本和视觉标记。我们发现,结合大型多模态LLM验证器的强化学习是这些策略中最有效的。因此,我们发布了EARL:基于自回归与强化学习的图像编辑模型,尽管使用了更少的训练数据,EARL在多样化的编辑任务上相较于强基线模型表现出了竞争力。由此,EARL推动了自回归多模态模型在图像编辑领域的前沿发展。我们在https://github.com/mair-lab/EARL上公开了代码、训练数据及训练好的模型。
我们推出Goedel-Prover-V2系列开源语言模型,在自动定理证明领域树立了新的标杆。基于标准的专家迭代与强化学习流程,我们的方法融合了三大创新点:(1) 阶梯式数据合成:通过生成难度递增的合成任务,训练模型逐步掌握更复杂的定理;(2) 验证器引导的自我修正:利用Lean编译器的反馈,使模型能够迭代修正其证明;(3) 模型平均:合并模型检查点,以缓解训练后期模型输出多样性的下降。我们的轻量级模型Goedel-Prover-V2-8B在MiniF2F上达到了84.6%的pass@32成绩,以80倍小的规模超越了DeepSeek-Prover-V2-671B的同等指标。旗舰模型Goedel-Prover-V2-32B在标准模式下以88.1%的pass@32成绩,在自我修正模式下更是达到90.4%,大幅领先于之前的SOTA。此外,该旗舰模型在PutnamBench上以pass@184解决了86道问题,在开源模型排行榜上位居榜首,以显著更小的模型规模和计算预算,超越了DeepSeek-Prover-V2-671B以pass@1024解决47道问题的记录。Goedel-Prover-V2在发布之时(2025年7月至8月),在所有开源定理证明器中展现了最强的综合性能。在受限的测试计算预算下,它也跻身于包括公开报告性能的闭源系统在内的顶尖模型之列。我们的模型、代码及数据已发布于https://github.com/Goedel-LM/Goedel-Prover-V2。
现有关于对话视频生成的研究主要集中于单人独白或孤立的面部动画,这限制了其在真实多人互动场景中的适用性。为填补这一空白,我们推出了MIT,一个专为多人对话视频生成设计的大规模数据集。为此,我们开发了一套自动化流程,用于收集并标注多人对话视频。该数据集最终包含12小时的高清视频,每段视频中展示二至四位发言者,并配有细致的身体姿态与语音互动标注。它捕捉了多说话者情境下的自然对话动态,为研究互动视觉行为提供了丰富的资源。为展示MIT的潜力,我们进一步提出了CovOG,作为这一新任务的基线模型。该模型整合了多人体姿态编码器(MPE),通过聚合个体姿态嵌入来处理不同数量的说话者,以及互动音频驱动器(IAD),依据说话者特定的音频特征来调节头部动态。这些组件共同展示了生成逼真多人对话视频的可行性与挑战,确立了MIT作为未来研究的重要基准。代码已发布于:https://github.com/showlab/Multi-human-Talking-Video-Dataset。
在可控图像合成领域,从具有空间布局感知的多个参考图像中生成连贯一致的图像仍是一个未解决的挑战。我们提出了LAMIC,一种布局感知的多图像组合框架,首次以无需训练的方式将单参考扩散模型扩展至多参考场景。基于MMDiT模型,LAMIC引入了两种即插即用的注意力机制:1)组隔离注意力(GIA)以增强实体解耦;2)区域调制注意力(RMA)以实现布局感知的生成。为了全面评估模型能力,我们进一步引入了三项指标:1)包含率(IN-R)和填充率(FI-R)用于评估布局控制;2)背景相似度(BG-S)用于衡量背景一致性。大量实验表明,LAMIC在大多数主要指标上均达到了业界领先水平:在所有设置中,它在ID-S、BG-S、IN-R和AVG得分上持续超越现有的多参考基线,并在复杂组合任务中取得了最佳的DPG。这些结果展示了LAMIC在身份保持、背景保留、布局控制及提示跟随方面的卓越能力,且无需任何训练或微调,展现了强大的零样本泛化能力。通过继承先进单参考模型的优势并实现向多图像场景的无缝扩展,LAMIC为可控多图像组合确立了一种新的无需训练范式。随着基础模型的持续演进,LAMIC的性能预期将相应提升。我们的实现代码已发布于:https://github.com/Suchenl/LAMIC。
为图表生成准确、信息丰富且无幻觉的标题,对于视觉语言模型而言仍具挑战性,这主要归因于缺乏大规模、高质量的真实世界图表数据集。然而,现有的真实世界图表数据集存在包含无法从图表中推断的冗余信息,以及未能充分捕捉结构要素和关键洞察的问题。为此,我们推出了ChartCap,一个包含565K张真实世界图表图像的大规模数据集,每张图像均配有类型特定、密集的标题,这些标题排除了冗余信息,并详细突出了结构要素和关键洞察。构建ChartCap的过程中,我们设计了一个四阶段流程,仅利用图表中可辨识的数据生成标题,并采用基于循环一致性的人工验证,在不牺牲准确性的前提下加速了质量控制。此外,我们提出了一种新颖的评估指标——视觉一致性评分,该指标通过衡量从标题重新生成的图表与原始图表之间的相似度来评估标题质量,独立于参考标题。大量实验证实,基于ChartCap微调的模型能够持续生成更准确、信息更丰富的标题,减少了幻觉现象,超越了开源和专有模型,甚至优于人工标注的标题。
近期,多模态大语言模型(MLLMs)的进展为具身代理的代码策略生成提供了更丰富的感知基础。然而,现有系统大多缺乏有效机制来在任务执行过程中自适应地监控策略执行并修复代码。本研究中,我们提出了HyCodePolicy,一种基于混合语言的控制框架,它系统地将代码合成、几何基础、感知监控及迭代修复整合到一个闭环编程循环中,专为具身代理设计。技术层面,给定一条自然语言指令,我们的系统首先将其分解为子目标,并生成一个基于对象中心几何原语的初始可执行程序。随后,该程序在仿真环境中执行,同时,一个视觉-语言模型(VLM)监控选定检查点,以检测并定位执行失败,推断失败原因。通过融合捕捉程序级事件的结构化执行轨迹与基于VLM的感知反馈,HyCodePolicy推断失败原因并修复程序。这种混合双反馈机制实现了在最少人工监督下的自我纠正程序合成。我们的结果表明,HyCodePolicy显著提升了机器人操作策略的鲁棒性和样本效率,为将多模态推理整合到自主决策流程中提供了一种可扩展的策略。
在线市场将由代表消费者行事的自主AI代理彻底改变。不同于人类浏览和点击,视觉-语言模型(VLM)代理能够解析网页、评估产品并完成交易。这引发了一个根本性问题:AI代理购买什么,以及为何购买?为此,我们开发了ACES,一个将平台无关的VLM代理与完全可编程的模拟市场配对的环境,以探究这一问题。我们首先在简单任务背景下进行基本理性检验,随后通过随机化产品位置、价格、评分、评论、赞助标签及平台推荐,获取前沿VLM实际购物行为的因果估计。模型展现出强烈但异质的位置效应:所有模型均偏好首行,但不同模型青睐不同列,挑战了“顶部”排名普遍性的假设。它们对赞助标签持负面态度,而对推荐给予正面响应。对价格、评分和评论的敏感度在方向上与人类相似,但在不同模型间幅度差异显著。鉴于卖家利用AI代理优化产品列表的情景,我们展示了一个卖家端代理,通过微调产品描述以迎合AI买家偏好,若AI主导购物,可带来显著市场份额提升。我们还发现,不同模型间的主流产品选择可能相异,在某些情况下,需求可能集中于少数精选产品,引发竞争问题。综合而言,我们的研究揭示了AI代理在电子商务环境中的可能行为,并提出了在AI中介生态系统中具体的卖家策略、平台设计及监管问题。
以场景为背景的自我中心人体运动生成与预测对于增强AR/VR体验、优化人机交互、推动辅助技术进步以及实现适应性医疗解决方案至关重要,它能够从第一人称视角精确预测和模拟人体运动。然而,现有方法主要集中于结合结构化三维场景的第三人称运动合成,在现实世界的自我中心场景中效果受限,因为有限的视野、频繁的遮挡以及动态相机视角阻碍了场景感知。为填补这一空白,我们提出了自我中心运动生成与自我中心运动预测两项新任务,它们利用第一人称图像进行场景感知的运动合成,而无需依赖显式的三维场景。我们提出了UniEgoMotion,一个统一的基于条件的运动扩散模型,采用专为自我中心设备设计的头部中心运动表示。UniEgoMotion简洁而高效的设计支持在统一框架下从第一人称视觉输入进行自我中心运动重建、预测和生成。与以往忽视场景语义的工作不同,我们的模型有效提取基于图像的场景上下文,以推断合理的三维运动。为促进训练,我们引入了EE4D-Motion,一个源自EgoExo4D的大规模数据集,并增加了伪真实三维运动标注。UniEgoMotion在自我中心运动重建上达到了最先进的性能,并首次实现了从单张自我中心图像生成运动。广泛的评估验证了我们统一框架的有效性,为自我中心运动建模设立了新基准,开启了自我中心应用的新可能。
文本-视频检索旨在从大规模在线数据库中,根据给定的视频(或文本)查询,找到最相关的文本(或视频)候选。近期研究利用多模态大语言模型(MLLMs)提升检索效果,特别是针对长或复杂的查询-候选对。然而,我们观察到,直接应用MLLMs,即基于候选可能性的检索,会引入候选先验偏差,倾向于选择本身具有更高先验的候选,而非与查询更相关的那些。为此,我们提出了一种新颖的检索框架——基于MLLM的双向可能性估计(BLiM),该框架通过训练模型从给定视频生成文本以及从给定文本生成视频特征,同时利用查询和候选的可能性。此外,我们引入了候选先验归一化(CPN),这是一个简单但有效的无需训练的打分校准模块,旨在缓解候选可能性中的候选先验偏差。在四个文本-视频检索基准测试中,配备CPN的BLiM平均比之前的最先进模型高出6.4个R@1,有效减轻了候选先验偏差,并强调了查询-候选的相关性。我们在检索之外的多模态任务上的深入分析表明,CPN通过减少对文本先验的依赖,增强了视觉理解,展现了其广泛的适用性。代码可在https://github.com/mlvlab/BLiM获取。
长上下文大语言模型(LLMs),如Gemini-2.5-Pro和Claude-Sonnet-4,正日益被用于赋能高级人工智能系统,包括检索增强生成(RAG)管道和自主代理。在这些系统中,LLM接收一条指令及一个上下文——通常由从知识库或记忆中检索的文本组成——并依据指令生成一个上下文相关的响应。近期研究已设计出解决方案,旨在追溯对LLM生成响应贡献最大的上下文文本子集。这些解决方案在现实世界中有广泛应用,包括执行攻击后的取证分析,以及提升LLM输出的可解释性和可信度。尽管已付出显著努力,但如TracLLM等最先进的解决方案往往导致高昂的计算成本,例如,TracLLM需数百秒才能完成单个响应-上下文对的追溯工作。在本研究中,我们提出了AttnTrace,一种基于LLM对提示产生的注意力权重的新上下文追溯方法。为有效利用注意力权重,我们引入了两项技术以增强AttnTrace的效果,并为我们的设计选择提供了理论见解。我们还对AttnTrace进行了系统性评估,结果表明,AttnTrace在准确性和效率上均优于现有的最先进上下文追溯方法。此外,我们展示了AttnTrace通过“检测前归因”范式,在长上下文下检测提示注入方面能够提升现有方法的性能。作为实际应用案例,我们证明了AttnTrace能有效定位一篇旨在操纵LLM生成评论的论文中注入的指令。代码位于https://github.com/Wang-Yanting/AttnTrace。
低秩适应(LoRA)已成为高效微调大型语言模型(LLMs)的标准工具。然而,即便是微小的LoRA更新也可能引发对齐漂移,通过参数间的纠缠变化削弱安全性和行为约束。针对这一问题,我们提出了AlignGuard-LoRA(AGL),一个在微调过程中保持对齐性的原则性框架。AGL引入了几个关键组件:用于监督的主任务损失、基于费舍尔信息矩阵的正则化以限制对齐敏感子空间中的更新,以及任务特定正则化以稳定新知识的整合。我们进一步引入了碰撞感知正则化,融合了黎曼重叠——惩罚坐标方向上的干扰——和测地分离——鼓励更新几何的独立性。我们构建了DriftCaps,一个针对安全与不安全提示的定向诊断基准,旨在量化对齐漂移和安全性下降。实证评估表明,AGL在安全关键基准上将对齐漂移减少了高达50%,且不影响下游任务性能。全面的消融实验证实,每个组件在保持潜在安全行为方面均有独特贡献。最后,我们推导并验证了灾难性遗忘的缩放定律,揭示AGL在保持适应动态的同时,减缓了微调后损失的上升。AGL是对LoRA的结构性优化,确保了对齐性的保持,同时实现了最小的权衡。为了鼓励进一步探索与开发,我们开源了我们的实现。
在现代集成开发环境(IDE)中,代码的逐词补全功能至关重要。它通过在编码过程中推荐相关标识符和API来辅助开发者。虽然补全建议通常源自静态分析,但其实际效用很大程度上取决于如何对这些建议进行排序,因为深藏于列表中的正确预测很少被用户注意到。当前大多数系统依赖于手工设计的启发式规则或基于用户日志训练的轻量级机器学习模型,这些方法在捕捉上下文信息及跨项目和编码风格泛化方面仍有提升空间。本研究提出了一种新颖的评分方法,利用语言模型以轻量且模型无关的方式对静态补全建议进行排序。我们的方法将所有有效补全组织成前缀树,并通过一次贪心解码遍历收集树中各词元的评分,从而实现无需束搜索、提示工程或模型调整的精确词元感知排序。该方法快速、架构无关,并能与已部署的代码补全模型兼容。这些发现为将语言模型整合到IDE现有工具中提供了一条实用且高效的途径,最终为开发者提供更智能、响应更迅速的辅助支持。
经过微调以与人类价值观对齐的大型语言模型(LLMs)常出现对齐漂移现象,在面对对抗性提示、解码扰动或改写式越狱时,会生成不安全或违反策略的补全内容。尽管先前的研究已从行为层面描述了对齐失败,但对于这些失败背后训练时信念来源的了解仍十分有限。我们提出了TraceAlign,一个统一的框架,用于将不安全的补全内容追溯至模型训练语料库中的根源。我们方法的核心是信念冲突指数(BCI),它基于通过后缀数组匹配检索到的训练文档,量化生成片段与对齐策略之间的语义不一致性。我们提出了三种互补的干预措施:(i)TraceShield,一个推理时安全过滤器,拒绝包含高BCI片段的补全;(ii)对比信念解冲突损失,一种对比微调目标,在DPO过程中惩罚高BCI的延续;(iii)Prov-Decode,一种来源感知的解码策略,否决预测会产生高BCI片段的束扩展。这些防御措施共同作用,在我们精心策划的对齐漂移基准(ADB)上将对齐漂移减少了高达85%,同时在标准任务上保持了实用性,差异小于0.2,并提升了拒绝质量。我们进一步通过后缀数组片段统计,推导出漂移可能性的理论上限,将记忆频率和长度与对抗性再激活风险联系起来。因此,TraceAlign提供了首个可扩展、可追踪且基于实际数据的工具包,用于理解和从源头缓解对齐失败。为鼓励进一步探索和开发,我们在以下地址开源了我们的实现:https://anonymous.4open.science/r/tracealign-2DA7。