每日精选AI研究论文及翻译
在扩散变换器(DiT)模型中,尤其是针对视频生成任务,由于序列长度较长以及二次方复杂度,注意力延迟成为主要瓶颈。我们发现,注意力权重可分为两部分:一小部分具有高秩的大权重和其余极低秩的权重。这自然启示我们对前者应用稀疏加速,对后者采用低秩加速。基于这一发现,我们提出了SLA(稀疏-线性注意力),一种可训练的注意力方法,它融合了稀疏与线性注意力以加速扩散模型。SLA将注意力权重划分为关键、边缘和可忽略三类,对关键权重应用O(N^2)的注意力计算,对边缘权重采用O(N)的注意力计算,并跳过可忽略的权重。SLA将这些计算整合到单一GPU内核中,并支持前向与反向传播。仅需使用SLA进行少量微调步骤,DiT模型即可实现注意力计算20倍的缩减,带来显著的加速效果而不损失生成质量。实验表明,SLA在不降低端到端生成质量的前提下,将注意力计算减少了95%,超越了基线方法。此外,我们为SLA实现了一个高效的GPU内核,在Wan2.1-1.3B上实现了注意力计算13.7倍的加速以及视频生成端到端2.2倍的提速。
当前主流的语义语音分词器,旨在捕捉语言内容,却意外地表现出脆弱性。我们发现,这些分词器对与意义无关的声学扰动缺乏鲁棒性;即便在高信噪比(SNR)下,语音清晰可辨,其输出的分词序列也可能发生剧烈变化,从而加重了下游大语言模型(LLMs)的学习负担。这种不稳定性源于两大缺陷:一是脆弱的单路径量化架构,二是对中间分词稳定性漠不关心的远程训练信号。为解决这一问题,我们提出了StableToken,一种通过共识驱动机制实现稳定性的分词器。其多分支架构并行处理音频,并通过强大的位级投票机制融合这些表示,生成单一且稳定的分词序列。StableToken在分词稳定性方面树立了新的标杆,显著降低了多种噪声条件下的单元编辑距离(UED)。这一基础稳定性直接转化为下游优势,大幅提升了语音大语言模型(SpeechLLMs)在各类任务中的鲁棒性。
基于人类反馈的强化学习(RLHF)已成为将大型语言模型(LLMs)与人类偏好对齐的标准范式。然而,建立在Bradley-Terry假设基础上的奖励方法难以捕捉现实世界偏好的非传递性和异质性。为此,近期研究将对齐问题重新定义为双人纳什博弈,催生了基于纳什的人类反馈学习(NLHF)。尽管这一视角启发了如INPO、ONPO和EGPO等具有坚实理论与实证保证的算法,但它们本质上仍局限于双人互动,形成了单一对手偏差,无法全面反映现实偏好结构的复杂性。本研究中,我们提出了多人纳什偏好优化(MNPO),这一新颖框架将NLHF推广至多人场景。它将对齐问题建模为n人博弈,其中每个策略在向参考模型正则化的同时,与一组对手竞争。我们的框架在多人设定下确立了明确的纳什均衡,并扩展了对偶间隙的概念以量化近似质量。我们证明,MNPO不仅继承了双人方法的均衡保证,还能激发更丰富的竞争动态,提升对多样化偏好结构的覆盖。通过全面的实证评估,我们展示了MNPO在指令跟随基准测试中持续超越现有NLHF基线,在异质标注者条件和混合策略评估场景下实现了更优的对齐质量。这些成果共同确立了MNPO作为一个原则性强、可扩展的框架,用于将LLMs与复杂、非传递的人类偏好对齐。代码可在https://github.com/smiles724/MNPO获取。
将视觉理解与生成能力整合至统一的多模态模型中,标志着向通用人工智能迈出了重要一步。然而,现有基准测试尚未解答一个根本问题:这种架构上的统一是否真正促进了各组成能力之间的协同作用?当前评估范式主要孤立地考察理解与生成能力,不足以判断统一模型能否利用其理解能力提升生成效果,或通过生成模拟促进更深层次的理解。为填补这一关键空白,我们推出了RealUnify,一个专门设计用于评估双向能力协同的基准测试。RealUnify包含1000个经过人工精心标注的实例,涵盖10个类别和32个子任务,围绕两大核心轴构建:1)“理解促进生成”,要求通过推理(如常识、逻辑)指导图像生成;2)“生成促进理解”,需通过心理模拟或重建(如对变换或混乱视觉输入的处理)来解决推理任务。我们的一个关键贡献是双评估协议,它结合了直接的端到端评估与诊断性分步评估,后者将任务分解为独立的理解与生成阶段。这一协议使我们能精确识别性能瓶颈是源于核心能力的不足,还是整合能力的缺失。通过对12个领先的统一模型和6个专业基线模型的大规模评估,我们发现当前统一模型在实现有效协同方面仍面临挑战,表明仅靠架构统一是不够的。这些结果强调了开发新的训练策略和归纳偏置的必要性,以充分释放统一建模的潜力。
统一多模态模型在图像生成与编辑方面的性能,从根本上受限于其训练数据的质量与全面性。尽管现有数据集已涵盖风格迁移和简单对象操控等基础任务,但它们往往缺乏现实应用所需的系统化结构和挑战性场景。为突破这一瓶颈,我们推出了OpenGPT-4o-Image,这是一个采用新颖方法构建的大规模数据集,该方法结合了层次化任务分类与自动化数据生成。我们的分类体系不仅包含文本渲染和风格控制等基础能力,还引入了高度实用且具挑战性的类别,如用于化学图示的科学图像和需要同时执行多项操作的复杂指令编辑。通过利用结构化资源池和GPT-4o的自动化流程,我们生成了8万对高质量指令-图像对,控制其多样性,覆盖11个主要领域和51个子任务。大量实验表明,基于我们数据集微调的领先模型在多个基准测试中均取得了显著性能提升,其中编辑任务(UniWorld-V1在ImgEdit-Bench上)提升高达18%,生成任务(Harmon在GenEval上)提升13%。我们的工作证明,系统化的数据构建是推动多模态AI能力进步的关键。
在可验证奖励的强化学习(RLVR)领域,主流观点通过探索-利用权衡的视角解读最新进展,这一视角主要受限于基于标记级别的评估指标。我们重新审视这一观点,提出这种感知到的权衡可能并非根本性约束,而是测量层次上的假象。为探究此问题,我们将分析转向语义丰富的隐藏状态空间,采用有效秩(ER)量化探索,并引入其新颖的一阶和二阶导数——有效秩速度(ERV)与有效秩加速度(ERA),以捕捉利用动态。我们的分析揭示,在隐藏状态层面,探索与利用能够实现解耦(见第4节)。这一发现揭示了同时提升两者能力的可能性。基于此洞见,我们提出了速度利用秩学习(VERL)方法,首次通过直接塑造RL优势函数,实现了探索与利用协同增强的原则。其核心创新在于利用理论稳定的ERA作为预测元控制器,构建了一个协同的双通道激励机制。VERL不强制进行权衡,而是前瞻性地放大探索奖励以预防过度自信,并强化利用收益以巩固推理能力。跨多种大语言模型和推理基准的实验显示了一致的性能提升,包括在具有挑战性的2024年高考数据集上实现了高达21.4%的绝对准确率提升。
我们推出SANA-Video,这是一款小型扩散模型,能够高效生成分辨率高达720x1280、时长可达一分钟的视频。SANA-Video以极快的速度合成高分辨率、高质量的长视频,并实现强大的文本-视频对齐,可在RTX 5090 GPU上部署。其高效、有效且支持长视频生成的核心设计包括两点:(1) 线性DiT:我们采用线性注意力作为核心操作,相较于传统注意力机制,在处理大量视频生成所需的token时更为高效。(2) 块线性注意力的恒定内存KV缓存:通过利用线性注意力的累积特性,我们设计了基于恒定内存状态的块级自回归方法,用于生成长视频。这种KV缓存以固定内存成本为线性DiT提供全局上下文,无需传统KV缓存,从而实现了高效的一分钟视频生成。此外,我们探索了有效的数据过滤器和模型训练策略,将训练成本压缩至64台H100 GPU上12天完成,仅为MovieGen成本的1%。凭借其低成本,SANA-Video在性能上与现代最先进的小型扩散模型(如Wan 2.1-1.3B和SkyReel-V2-1.3B)相媲美,同时实测延迟降低了16倍。更重要的是,SANA-Video可在RTX 5090 GPU上以NVFP4精度部署,将生成5秒720p视频的推理速度从71秒加速至29秒(提速2.4倍)。总之,SANA-Video实现了低成本、高质量的视频生成。
基于强化学习的后训练技术近期崭露头角,成为提升多模态大语言模型(MLLMs)对齐与推理能力的强大范式。尽管以视觉为中心的后训练对于增强MLLMs对视觉信号的内在理解至关重要,但当前的后训练范式仍主要围绕文本展开,密集的视觉输入仅被用来提取稀疏线索以支持基于文本的推理。虽然已有一些探索朝此方向迈进,但这些方法往往仍依赖文本作为中间媒介,或引入了额外的视觉生成设计。在本研究中,我们提出了“视觉拼图”(Visual Jigsaw),一个旨在强化MLLMs视觉理解的通用自监督后训练框架。视觉拼图被构建为一个通用的排序任务:视觉输入被分割、打乱,模型需通过生成自然语言中的正确排列来重建视觉信息。这一设计自然契合了基于可验证奖励的强化学习(RLVR),无需额外的视觉生成组件,且其监督信号自动生成,无需任何标注。我们将视觉拼图应用于三种视觉模态,包括图像、视频和3D数据。大量实验表明,该方法在细粒度感知、时序推理及3D空间理解方面带来了显著提升。我们的发现凸显了自监督视觉中心任务在后训练MLLMs中的潜力,旨在激发更多关于视觉中心预训练设计的深入研究。项目页面:https://penghao-wu.github.io/visual_jigsaw/
AI科学家正在构建作为发现过程中协作伙伴的计算系统。然而,这些系统的构建仍面临挑战,因为它们往往定制化程度高、依赖于固定工作流程,且缺乏将工具、数据和分析统一整合的共享环境。在组学领域,统一生态系统通过实现互操作性、重用性和社区驱动开发,已彻底改变了研究方式;AI科学家同样需要类似的基础设施。我们推出了ToolUniverse,这是一个支持从任何语言或推理模型(无论是开源还是闭源)构建AI科学家的生态系统。TOOLUNIVERSE标准化了AI科学家识别和调用工具的方式,集成了超过600个机器学习模型、数据集、API以及用于数据分析、知识检索和实验设计的科学软件包。它自动优化工具接口以确保AI科学家的正确使用,根据自然语言描述创建新工具,迭代优化工具规范,并将工具组合成自主工作流。在一项关于高胆固醇血症的案例研究中,ToolUniverse被用于创建一个AI科学家,成功识别出一种具有良好预测特性的药物类似物。开源版ToolUniverse可在https://aiscientist.tools获取。
具备推理能力的大型语言模型(LLMs)已在广泛任务中实现了顶尖性能。尽管其经验性成功显著,但推理能力在何种任务及模型规模下最为有效,以及其训练与推理成本,仍待深入探索。本研究依托于一个合成数据蒸馏框架,开展大规模监督学习实验。我们对比了不同规模的指令微调(IFT)模型与推理模型,在数学核心及通用任务上的表现,评估了包括多项选择与开放式问答在内的多种形式。分析表明,推理能力持续提升模型性能,常能匹敌甚至超越规模显著更大的IFT系统。值得注意的是,尽管IFT在训练与推理成本上保持帕累托最优,但随着模型规模扩大,推理模型的价值日益凸显,在推理密集型和开放式任务上突破了IFT的性能极限。
视觉语言模型(VLMs)实现了图像与文本的统一建模,使其能够通过感知、规划和推理完成复杂的现实任务。在这些任务中,推理尤为典型,数学推理便是其中的突出例证,它凸显了VLMs理解图像中数学信息并进行高级推理的能力。近期,众多视觉数学推理基准被提出,但它们往往局限于几何领域,缺乏对数学文字题的覆盖,且很少评估跨多图像的推理能力。为填补这些空白,我们引入了GSM8K-V,一个纯视觉的多图像数学推理基准。GSM8K-V通过系统地将广泛使用的基于文本的GSM8K数据集中的每个样本映射为视觉形式构建而成。通过精心设计的自动化图像生成流程与细致的人工标注相结合,我们精选了1,319个高质量样本。我们对一系列开源和闭源模型在GSM8K-V上进行了评估。结果显示,尽管现有VLMs在基于文本的GSM8K上已接近性能饱和,但在GSM8K-V上仍有显著提升空间。例如,表现最佳的模型Gemini-2.5-Pro在GSM8K上达到了95.22%的准确率,而在GSM8K-V上仅为46.93%。我们对GSM8K-V进行了全面分析,探讨了当前模型的局限以及潜在的改进方向。GSM8K-V为视觉数学推理提供了新的视角,并建立了一个基准,以指导开发更强大、更具泛化能力的VLMs。
指令引导的图像编辑已取得显著进展,然而现有模型在处理复杂指令时仍面临挑战,往往需要多次尝试才能获得理想结果。强化学习(RL)为此提供了有前景的解决方案,但其在图像编辑中的应用因缺乏高保真、高效的奖励信号而严重受阻。本研究中,我们提出了一套全面的方法论来突破这一障碍,核心在于开发一款尖端的专用奖励模型。我们首先引入了EditReward-Bench,这是一个系统评估奖励模型编辑质量的综合基准。基于此基准,我们开发了EditScore,一系列用于评估指令引导图像编辑质量的奖励模型(7B-72B)。通过精细的数据整理与筛选,EditScore有效匹配了学习专有视觉语言模型(VLMs)的表现。此外,结合专为EditScore生成特性设计的有效自集成策略,我们最大规模的变体甚至在基准测试中超越了GPT-5。随后,我们证明了高保真奖励模型是解锁图像编辑在线RL的关键。实验表明,即便最大的开源VLMs也无法提供有效的学习信号,而EditScore则能实现高效且稳健的策略优化。将我们的框架应用于强大的基础模型OmniGen2,最终模型展现出显著且一致的性能提升。总体而言,本研究首次系统地从基准测试到奖励建模再到RL训练,为图像编辑领域开辟了一条路径,证明了高保真、领域专用的奖励模型是释放RL在该领域全部潜力的关键。
尽管扩散语言模型(DLMs)为自回归模型(ARs)提供了一个有前景的替代方案,但现有的开源DLMs面临高推理延迟的瓶颈。这一瓶颈主要源于注意力机制在计算所有查询-键对时相对于上下文长度的二次复杂度。直观上,降低这一复杂度的自然策略是限制注意力于稀疏模式,仅保留最相关的连接。此类方法在ARs中已得到广泛应用,其中注意力遵循固定且定义明确的稀疏模式。然而,在DLMs中,我们观察到独特的稀疏行为:(1)注意力模式在不同头部间变化;(2)每个头部的注意力模式在去噪步骤间保持高度相似;(3)早期去噪步骤对生成至关重要。这些发现使得为ARs设计的稀疏注意力方法大多不适用于DLMs,因为它们未能捕捉头部特定的结构,且在应用于早期去噪步骤时可能损害生成质量。针对这些挑战,我们提出了SparseD,一种专为DLMs设计的新型稀疏注意力方法。基于上述观察,SparseD仅需预先计算一次头部特定的稀疏模式,并在所有步骤中重复使用,避免了在每一步去噪时重新计算稀疏模式。同时,SparseD在早期步骤采用全注意力,随后切换至稀疏注意力以保持生成质量。这些特性共同确立了SparseD作为在长上下文应用中部署DLMs的实用且高效的解决方案。实验结果表明,SparseD实现了无损加速,在64k上下文长度和1,024去噪步骤下,相比FlashAttention最高可提速1.50倍。
大语言模型(LLM)引导已成为一种有前景的范式,通过在推理时对隐藏状态进行定向操控来控制模型行为,为昂贵的重新训练提供了一种轻量级替代方案。然而,现有引导框架存在关键局限:计算效率低下、扩展性有限以及功能受限,阻碍了研究进展和实际部署。我们提出了EasySteer,一个基于vLLM构建的高性能、可扩展LLM引导统一框架。该系统采用模块化架构,提供可插拔接口支持基于分析和学习的方法,实现细粒度参数控制,预计算了八个应用领域的引导向量,并配备交互式演示系统。通过与vLLM优化推理引擎的深度集成,EasySteer相比现有框架实现了5.5至11.4倍的加速。大量实验验证了其在缓解过度思考、减少幻觉等关键应用中的有效性。EasySteer将引导从研究技术转变为生产就绪的能力,为可部署、可控的语言模型建立了关键基础设施。
扩散语言模型(DLMs)虽具备理论上的高效性,却受限于固定长度解码及与键值(KV)缓存的不兼容性。区块扩散虽缓解了这些问题,但仍强制采用固定区块大小,且需昂贵的训练成本。我们引入下一序列预测(NSP),它统一了下一词元与下一区块的预测,使模型能在每一步自适应地决定生成长度。当长度固定为1时,NSP即退化为标准的下一词元预测。基于NSP,我们提出了序列扩散语言模型(SDLM),它能以极低成本适配预训练的自回归语言模型(ALMs)。具体而言,SDLM在固定大小的掩码区块内执行扩散推理,但根据模型置信度动态解码连续子序列,从而保持与KV缓存的兼容性,并提升对序列中变化不确定性和语义的鲁棒性。实验表明,SDLM仅需350万训练样本即可匹敌或超越强大的自回归基线,同时实现比Qwen-2.5高出2.1倍的吞吐量。尤为突出的是,SDLM-32B模型展现出更为显著的效率提升,彰显了我们建模范式强大的可扩展潜力。项目页面与代码:https://github.com/OpenGVLab/SDLM。
深度研究代理(DRAs)能够自主开展复杂调查并生成全面报告,展现出强大的现实应用潜力。然而,现有评估主要依赖封闭式基准测试,而开放式深度研究基准则相对稀缺,且通常忽视了个性化场景。为填补这一空白,我们推出了个性化深度研究基准(Personalized Deep Research Bench),这是首个用于评估DRAs个性化能力的基准。该基准将10个领域的50项多样化研究任务与25个真实用户档案配对,这些档案结合了结构化的人物属性与动态的现实情境,从而产生了250个真实用户-任务查询。为评估系统性能,我们提出了PQR评估框架,该框架同时衡量(P)个性化对齐度、(Q)内容质量及(R)事实可靠性。通过对一系列系统的实验,我们揭示了当前在处理个性化深度研究方面的能力与局限。本工作为开发和评估下一代真正个性化的AI研究助手奠定了严谨的基础。
可验证奖励的强化学习(RLVR)已成为提升大语言模型(LLMs)推理能力的一种有前景的范式。当前方法主要依赖于如PPO和GRPO等策略优化框架,这些框架遵循广义策略迭代,即在评估当前策略价值与基于评估改进策略之间交替进行。尽管有效,这些方法常面临训练不稳定性和多样性崩溃的问题,需要复杂的启发式技巧和精细调参。我们观察到,在数学推理中,标准RLVR可被形式化为一种特殊的有限时域马尔可夫决策过程,具有确定性的状态转移、树状动态结构及二元终止奖励。尽管规模庞大,其底层结构比开发流行RL算法(如PPO)的通用控制场景更为简单,这表明现有方法中的多项复杂技术或许可以简化甚至省略。基于这一洞察,我们证明了一个令人惊讶的结果:最优动作可以从固定均匀随机策略的Q函数中恢复,从而绕过了广义策略迭代循环及其相关启发式方法。我们引入了“随机策略估值促进多样化推理”(ROVER),将这一原则转化为适用于LLM数学推理的实用且可扩展算法,这是一种极简却高效的RL方法,它从这些均匀策略Q值的softmax中采样动作。ROVER在整个训练过程中保持了多样性,允许持续探索多种有效路径。在多个基础模型和标准数学推理基准测试中,ROVER在质量(pass@1提升8.2,pass@256提升16.8)和多样性(提升17.6%)上均展现出卓越性能,尽管与现有复杂方法相比,其进行了根本性的简化。
近期,文本到视频生成技术取得了显著进展,生成的视频内容愈发逼真且多样化。然而,由于视频质量评估涉及视觉质量、语义对齐及物理一致性等多维度特性,对其进行有效评估仍面临根本性挑战。现有的评估工具和奖励模型多局限于单一的不透明评分,缺乏可解释性,或仅提供粗略分析,难以全面捕捉视频质量评估的复杂性。为此,我们推出了VideoScore2,一个多维度、可解释且与人类评价标准对齐的框架,它能够明确评估视觉质量、文本到视频的对齐度以及物理/常识一致性,并生成详细的思维链推理过程。该模型基于大规模数据集VideoFeedback2进行训练,该数据集包含27,168个人工标注的视频,涵盖三个维度的评分及推理轨迹。我们采用了两阶段训练流程,先进行监督微调,随后通过群体相对策略优化(GRPO)进行强化学习,以增强分析的鲁棒性。大量实验表明,VideoScore2在内部基准VideoScore-Bench-v2上实现了44.35(+5.94)的准确率,在四个外部基准(如VideoGenReward-Bench、VideoPhy2等)上的平均表现达到50.37(+4.32),同时提供了可解释的评估结果,通过有效的奖励建模为最佳N采样(Best-of-N sampling)搭建了评估与可控生成之间的桥梁。项目页面:https://tiger-ai-lab.github.io/VideoScore2/
强化学习(Reinforcement Learning, RL)已成为一种广受欢迎的训练范式,尤其是在与推理模型结合使用时。尽管效果显著,它主要侧重于生成响应,缺乏明确促进批判或反思的机制。近期多项研究,如批判微调(Critique-Fine-Tuning, CFT)和批判引导蒸馏(Critique-Guided-Distillation, CGD),已展示了明确教授大语言模型(LLMs)如何进行批判的益处。受此启发,我们提出了批判强化学习(Critique Reinforcement Learning, CRL),其中模型的任务是为给定的(问题,解决方案)对生成批判。奖励仅取决于生成的批判的最终判断标签c(属于{真,假})是否与真实判断c^*一致。基于这一点,我们引入了Critique-Coder,它通过在标准RL数据中替换20%为CRL数据进行混合训练。我们对多个模型(Critique-Coder)进行了微调,并在不同基准上评估,以展示其相较于仅使用RL模型的优势。结果表明,Critique-Coder在所有评估基准上均持续超越仅使用RL的基线模型。值得注意的是,我们的Critique-Coder-8B在LiveCodeBench(v5)上达到了超过60%的得分,超越了DeepCoder-14B和GPT-o1等其他推理模型。除了代码生成,Critique-Coder还展现了增强的通用推理能力,这体现在其在BBEH数据集上的逻辑推理任务中表现更佳。这表明,在编码数据集上应用CRL不仅提升了通用推理和批判能力,这些能力还能广泛迁移至多种任务中。因此,我们相信CRL作为标准RL的补充,对于LLM推理具有重要价值。
强化学习(RL)是否真正教会了大型语言模型(LLMs)新技能,还是仅仅激活了其已有能力?这一问题处于关于RL在LLM后训练中作用的核心争议之中。一方面,即便没有先前的监督微调,RL也能取得显著的实证结果;另一方面,批评者认为RL的作用仅限于重新权衡现有的推理策略。本研究提供了具体证据,表明LLMs在RL过程中能够通过组合现有技能来真正掌握新技能,这反映了人类获取新认知技能的核心机制之一。为了减少数据污染及其他混杂因素的影响,并实现对任务复杂度的精确控制,我们开发了一个合成框架进行研究。具体而言,我们将技能定义为给定输入x,推断字符串转换函数f(x)输出的能力。当LLM在RL之前已学会f和g时,我们的实验揭示,RL使其能够学习到它们未见过的组合h(x)=g(f(x))。此外,这种组合能力还能推广到更复杂的问题,如RL训练期间未见的超过两个函数的组合。令人惊讶的是,我们的实验显示,在源任务上获得的组合技能能够迁移到不同的目标任务上。这种迁移甚至在目标任务的组合训练缺失的情况下也能发生,仅需具备目标任务的基本技能知识即可。我们的定性分析表明,RL从根本上改变了模型的推理行为。相比之下,使用相同数据进行下一词预测训练则未能产生这些发现。通过系统性的实验,我们为LLM学习提供了新的见解,建议首先构建具备基础技能的基模型,随后利用RL激励其发展出适用于复杂问题的高级、可泛化技能。
空间智能涵盖了一系列丰富的能力,包括形状的可视化与变换、物体的心理旋转、关系位置与包含关系的判断以及数量估计。然而,这仍然是多模态大语言模型(MLLMs)面临的一个关键未解难题。为填补这一空白,我们提出将欧几里得几何问题解决作为替代任务。具体而言,我们精心构建了一个名为Euclid30K的多模态数据集,包含约30K个平面与立体几何问题。为了使模型能够从这些几何问题中学习并应用欧几里得原理,我们采用了群体相对策略优化(GRPO)对Qwen2.5VL系列和RoboBrain2.0系列进行微调,激励模型识别形状、计数、关联实体,并运用欧几里得原理进行多步演绎推理。实验表明,经过训练的模型在四个空间推理基准测试(Super-CLEVR、Omni3DBench、VSI-Bench和MindCube)上均实现了显著的零样本性能提升,无需任何任务特定适配。值得注意的是,在Euclid30K上训练后,所有评估模型的VSI-Bench平均准确率从34.5%提升至40.5%,提高了5.5个百分点。其中,RoboBrain2.0-Euclid-7B以49.6%的准确率超越了之前的最先进模型Spatial-MLLM。据我们所知,这是首次系统研究表明,以几何为中心的微调能够赋予视觉语言模型广泛可迁移的空间技能。代码及Euclid30K数据集可在https://zgca-ai4edu.github.io/Euclids_Gift获取。
视觉个性化在面向用户的AI系统中至关重要,如智能家居和医疗保健领域,这些场景下将模型行为与以用户为中心的概念对齐极为关键。然而,尽管近期的大型视觉-语言模型(VLMs)具有广泛的应用潜力,其在适应个体用户方面的能力仍未被充分探索。本文中,我们推出了MMPB,首个用于评估VLMs个性化能力的广泛基准。MMPB包含10,000个图像-查询对,涵盖人类、动物、物体和角色四大类别的111个可个性化概念,其中人类类别特别融入了基于偏好的查询。我们将个性化任务划分为三种主要类型,每种类型突出VLMs的一个关键特性。通过采用包括开源和闭源模型在内的23种广泛使用的VLMs,我们采用三阶段协议评估个性化性能:概念注入、多轮对话及个性化查询。研究结果显示,大多数VLMs(包括部分闭源模型)在个性化方面表现欠佳,尤其是在对话一致性维护、用户偏好处理及视觉线索适应上。我们的分析指出,VLMs个性化面临的挑战(如拒绝行为和长上下文遗忘)揭示了巨大的改进空间。通过识别这些局限并提供可扩展的基准,MMPB为未来实现真正个性化的多模态AI研究提供了宝贵的洞见和坚实基础。项目页面:aidaslab.github.io/MMPB
我们研究了将三维基础模型(3DFMs)应用于密集新视角合成(NVS)的问题。尽管NeRF和3DGS在新视角合成方面取得了显著进展,现有方法仍依赖于通过运动结构恢复(SfM)获取的精确三维属性(如相机姿态和点云),而SfM在低纹理或低重叠捕获中往往速度慢且不稳定。最近的3DFMs展示了相对于传统流程数量级的速度提升,以及在线NVS的巨大潜力。但大多数验证和结论仅限于稀疏视图设置。我们的研究发现,将3DFMs简单扩展至密集视图会遭遇两个根本性障碍:显存负担急剧增加,以及不完美的输出会损害对初始化敏感的三维训练。为解决这些障碍,我们提出了VGGT-X,包含一个可扩展至1000+图像的内存高效VGGT实现、用于增强VGGT输出的自适应全局对齐,以及稳健的3DGS训练实践。大量实验表明,这些措施显著缩小了与基于COLMAP初始化流程的保真度差距,在无需COLMAP的密集NVS和姿态估计中达到了最先进的成果。此外,我们分析了与COLMAP初始化渲染之间剩余差距的原因,为未来三维基础模型和密集NVS的发展提供了洞见。我们的项目页面位于https://dekuliutesla.github.io/vggt-x.github.io/。
流媒体视频生成作为交互式世界模型和神经游戏引擎的基础组件之一,旨在生成高质量、低延迟且时间连贯的长视频流。然而,现有大多数工作存在严重的误差累积问题,往往导致生成的视频流在长时间跨度内质量显著下降。我们设计了“滚动强制”(Rolling Forcing)这一新颖的视频生成技术,旨在实现长视频流生成时最小化误差累积。滚动强制技术包含三项创新设计:首先,不同于逐帧迭代采样加速误差传播,我们设计了一种联合去噪方案,该方案能同时对多帧进行去噪处理,且噪声水平逐步递增。这一设计放宽了相邻帧间的严格因果性,有效抑制了误差增长。其次,我们将注意力汇聚机制引入长时域视频流生成任务,使模型能够保留初始帧的关键值状态作为全局上下文锚点,从而增强长期全局一致性。第三,我们设计了一种高效的训练算法,支持在极大扩展的去噪窗口上进行少步蒸馏。该算法作用于非重叠窗口,并基于自生成历史条件缓解了暴露偏差。大量实验表明,滚动强制技术能够在单GPU上实时生成长达数分钟的视频,且显著减少了误差累积。
单目深度估计(MDE)是计算机视觉领域的一项基础任务。传统方法受限于数据稀缺性和质量问题,影响了其鲁棒性。为解决这一难题,我们提出了BRIDGE,一个基于强化学习优化的深度到图像(D2I)生成框架,该框架能够从多样化的源深度图中合成超过2000万张真实且几何精确的RGB图像,每张图像均与其真实深度值天然配对。随后,我们在此数据集上训练深度估计模型,采用了一种混合监督策略,将教师模型的伪标签与真实深度相结合,以实现全面而稳健的训练。这一创新的数据生成与训练范式使BRIDGE在规模和领域多样性上取得突破,在定量评估及复杂场景细节捕捉方面持续超越现有最先进方法,从而促进了通用且鲁棒的深度特征学习。代码与模型已发布于https://dingning-liu.github.io/bridge.github.io/。
长序列处理是现代大型语言模型的关键能力。然而,标准Transformer架构中的自注意力机制在处理长序列时面临严重的计算和内存瓶颈。尽管可训练的稀疏注意力方法提供了有前景的解决方案,但现有方法如NSA引入了过多的额外参数,并打破了传统的“短序列预训练、长序列微调”工作流程,导致收敛速度慢且难以加速。为克服这些限制,我们引入了密集-稀疏可切换注意力框架,称为InfLLM-V2。InfLLM-V2是一种可训练的稀疏注意力机制,能够无缝地将模型从短序列适应到长序列。具体而言,InfLLM-V2通过无参数架构修改重用密集注意力参数,保持短序列与长序列处理之间的一致性。此外,InfLLM-V2通过短输入使用密集注意力、长序列平滑过渡到稀疏注意力,确保所有序列长度下的计算效率。为实现实际加速,我们进一步引入了InfLLM-V2的高效实现,显著降低了计算开销。我们在长上下文理解和链式推理上的实验表明,InfLLM-V2比密集注意力快4倍,同时分别保留了98.1%和99.7%的性能。基于InfLLM-V2框架,我们训练并开源了混合推理模型MiniCPM4.1(https://huggingface.co/openbmb/MiniCPM4.1-8B),为研究社区提供了可复现的实现。
我们提出SIRI(Scaling Iterative Reinforcement Learning with Interleaved Compression),一种针对大型推理模型(LRMs)的简单而有效的强化学习方法,旨在实现更高效、更准确的推理。现有研究已观察到LRMs中存在重复的思维模式,而减少这些重复的尝试往往以性能下降为代价。本文中,我们展示了一种通过训练机制克服这一权衡的方法,即在训练过程中动态调整最大展开长度,交替进行压缩与扩展。压缩阶段削减展开长度,迫使模型在有限上下文中做出精确且有价值的决策,从而有效减少冗余标记并提高推理密度。扩展阶段则放宽长度限制,为模型在长视野场景中探索与规划提供空间。值得注意的是,我们发现每经过一次压缩-扩展循环,模型的性能都会提升,即使其输出长度减少,稳步推动其接近性能-效率权衡的帕累托前沿。在DeepSeek-R1-Distill-Qwen-1.5B上训练后,SIRI-low在AIME24上的性能提升了43.2%,同时标记使用量减少了46.9%,经过三次迭代;而SIRI-high相比所有其他方法达到了最高准确率(图1)。我们的发现揭示了在训练期间周期性调整LRM输出截断长度以动态平衡推理探索与效率的潜力,最终在两者之间达到一个最优的“甜蜜点”。我们的模型已公开可用。
我们认为,要实现模型的持续改进和多维对齐,未来的模型必须从自然的人类互动中学习。当前的对话模型通过预先标注、由专家生成的人类反馈进行对齐。在本研究中,我们引入了基于人类互动的强化学习(RLHI),这一范式直接从真实用户对话中学习。我们开发了两种互补的方法:(1)用户引导重写的RLHI,该方法根据用户的自然语言后续响应修订不满意的模型输出;(2)基于用户奖励的RLHI,该方法通过一个以用户长期互动历史(称为“人物画像”)为条件的奖励模型进行学习。这两种方法通过人物画像条件偏好优化,将长期用户画像与轮次级别的偏好联系起来。在WildChat对话数据上训练后,两种RLHI变体在个性化和指令遵循方面均优于强基线,类似的反馈也提升了推理基准上的表现。这些结果表明,有机的人类互动为个性化对齐提供了可扩展且有效的监督。
我们推出MGM-Omni,一款统一的全模态大语言模型,旨在实现全模态理解与富有表现力的长时程语音生成。与将语音合成孤立处理的级联式管道不同,MGM-Omni采用“大脑-嘴巴”双轨设计,基于令牌的架构清晰地将多模态推理与实时语音生成解耦。这一设计促进了高效的跨模态交互与低延迟的流式语音生成。在理解方面,结合双音频编码器的统一训练策略,使模型能在多样声学条件下感知长音频。在生成方面,基于分块的并行解码方案缩小了文本与语音令牌率之间的差距,加速了推理过程,并支持在长时间内稳定音色的流式零样本语音克隆。与同期工作相比,MGM-Omni以显著的数据效率实现了这些能力。大量实验表明,MGM-Omni在保持长序列音色一致性、生成自然且上下文感知的语音,以及实现卓越的长音频与全模态理解方面,均优于现有开源模型。MGM-Omni为全模态理解与可控、个性化的长时程语音生成建立了一个高效的端到端范式。
数据分析智能体正成为自动化科学发现与创新AI愿景的关键推动力。然而,现有方法严重依赖对专有模型的提示工程,而开源模型在处理多样格式的大规模数据文件及满足现实世界分析所需的长期、多步推理方面仍面临挑战。本文介绍了DataMind,一种可扩展的数据合成与智能体训练方案,旨在构建通用型数据分析智能体。DataMind针对构建开源数据分析智能体中的三大关键难题:数据资源不足、训练策略不当及基于代码的多轮执行不稳定,提出了解决方案。具体而言,DataMind采用:1)细粒度任务分类与递归式由易到难任务组合机制,以提升合成查询的多样性与难度;2)知识增强的轨迹采样策略,辅以模型与规则双重过滤;3)结合SFT与RL损失的动态可调训练目标;4)内存高效且稳定的基于代码的多轮执行框架。基于DataMind,我们构建了DataMind-12K,一个涵盖多领域、多任务类别及多种数据文件格式的高质量轨迹集,专为数据分析任务设计。在DataMind-12K上训练的DataMind-14B,在多项数据分析基准测试中平均得分达71.16%,超越了最强的专有基线DeepSeek-V3.1与GPT-5。我们的DataMind-7B同样在开源模型中表现最佳,得分为68.10%。此外,我们将探索性试验中获得的实证见解融入分析实验,旨在为社区提供关于智能体训练的可操作洞见。我们将向社区发布DataMind-12K及DataMind-7B、14B,以支持未来的研究。
我们推出HunyuanImage 3.0,这是一款原生多模态模型,在自回归框架下统一了多模态理解与生成,其图像生成模块已公开可用。HunyuanImage 3.0的成就得益于多个关键要素,包括精细的数据筛选、先进的架构设计、原生的思维链机制、渐进式模型预训练、激进的模型后训练,以及支持大规模训练与推理的高效基础设施。凭借这些进步,我们成功训练了一个包含超过800亿参数的专家混合模型(MoE),在推理时每个令牌激活130亿参数,使其成为迄今为止最大且最强大的开源图像生成模型。我们进行了广泛的实验,自动与人工评估在文本-图像对齐及视觉质量方面的结果表明,HunyuanImage 3.0可与以往的最先进模型相媲美。通过发布HunyuanImage 3.0的代码与权重,我们旨在为社区提供一个最先进的基础模型,以探索新思路,促进一个充满活力与生机的多模态生态系统。所有开源资源均可在https://github.com/Tencent-Hunyuan/HunyuanImage-3.0 公开获取。
工具集成推理(Tool-Integrated Reasoning, TIR)使大型语言模型(LLMs)能够通过整合外部工具来提升其内部推理能力。然而,采用TIR的模型常表现出次优行为,如工具使用不足或过度,以及在工具调用后过度思考。激励LLMs高效且准确地进行TIR,同时稳定推理过程,仍是一个未解难题。本文首先从信息熵的角度探讨了工具调用对模型推理的影响。研究发现,工具调用结果会导致后续推理的信息熵发生显著变化,推理链的整体熵随工具调用次数的不同而变化。基于这些发现,我们提出了Tool-Light框架,旨在鼓励LLMs高效且准确地执行TIR。该框架包括数据集构建和多阶段微调。在数据集构建方面,我们采用微调模型进行连续自演化采样,结合了普通采样和熵引导采样。此外,我们在采样过程中为选择正负样本对设定了严格标准。训练过程采用两阶段方法,包括监督微调(Supervised Fine-Tuning, SFT)和自演化直接偏好优化(Self-Evolved Direct Preference Optimization, DPO)。在10个数据集上的实验结果表明,Tool-Light有效提升了模型执行TIR任务的效率。
测试时扩展(TTS)通过增加推理过程中的计算资源分配,提升了大型语言模型(LLMs)的推理能力。然而,现有方法主要依赖于输出层面的采样,忽视了模型架构的作用。在主流专家混合(MoE)LLMs中,我们观察到,调整激活专家数量能够产生互补的解决方案集,同时保持稳定的准确率,这揭示了一个尚未充分探索的多样性来源。基于这一观察,我们提出了动态专家搜索(DES),一种将专家激活提升为搜索空间可控维度的TTS策略。DES整合了两个关键组件:(1)动态MoE,它能够在推理过程中直接控制专家数量,以无额外成本生成多样化的推理轨迹;(2)专家配置继承,它确保在单次推理路径内专家数量保持一致,而在不同运行间变化,从而在搜索过程中平衡稳定性与多样性。跨MoE架构、验证器及推理基准(如数学、代码和知识)的大量实验表明,DES在无需额外成本的情况下,稳定超越了TTS基线,提升了准确率和稳定性。这些成果凸显了DES作为一种实用且可扩展的架构感知TTS形式,展示了现代LLMs结构灵活性如何推动推理能力的进步。
大型语言模型(LLMs)在通用数学推理方面表现出色,但在专业数学领域却表现欠佳。在无线通信领域,问题往往需要精确处理信息论界限、优化约束和信号处理公式,即便是最先进的模型也难以胜任。我们提出了WirelessMathLM,展示了通过领域特定的强化学习与可验证奖励,紧凑模型(0.5B-7B参数)能够媲美甚至超越更大规模的模型。我们的核心洞见是,无线数学问题具备一个独特属性——可验证的正确性——这使得无需人类反馈即可实现有效的强化学习。我们构建了WirelessMathBench-XL,这是一个包含970篇论文中4,027个问题的综合基准。通过采用带有二元验证奖励的组相对策略优化(GRPO),我们直接从基础检查点训练模型,无需监督预热。我们的7B模型在WirelessMathBench-XL上达到了39.5%的准确率,接近GPT-4o(40.4%),而参数数量仅为DeepSeek-R1(671B,57.4%)的约百分之一。值得注意的是,GRPO训练在所有模型规模上几乎将性能翻倍(0.5B +11%,3B +103%,7B +81%),并且对通用数学基准产生了正向迁移——我们的模型在MATH、Minerva-Math、OlympiadBench、AMC和AIME上平均提升了8.4分,且未在这些任务上进行任何训练。
大规模视觉语言模型(LVLMs)在多模态任务上表现出色,然而它们往往依赖于语言先验(LP)——即预训练期间记忆的文本模式,而未能充分利用视觉证据。先前对LP的分析主要依赖于输入输出探测,这种方法无法揭示视觉何时以及如何影响模型行为的内部机制。为填补这一空白,我们首次通过嵌入链的视角对语言先验进行了系统性分析,深入研究了LVLMs内部各层的表示动态。我们的分析揭示了一个普遍现象:每个模型都存在一个视觉整合点(VIP),即视觉信息开始显著重塑隐藏表示并影响解码的关键层。基于这一发现,我们提出了总视觉整合(TVI)估计器,它通过聚合VIP之后的表示距离来量化视觉查询对响应生成的强烈程度。在涵盖9种当代LVLMs和6个基准测试的54个模型-数据集组合中,我们证明了VIP的一致存在,且TVI能可靠预测语言先验的强度。这为诊断和理解LVLMs中的语言先验提供了一个原则性的工具包。
我们提出了一种新颖的大语言模型(LLM)蒸馏方法,将其构建为一个约束强化学习问题。尽管近期研究已开始探索将任务特定奖励融入蒸馏过程,但现有方法通常依赖于临时性的奖励权重分配。我们提出了一种原则性的优化框架,该框架在最大化任务特定奖励的同时,将学生模型与教师模型的偏离度约束在预设阈值之下。我们的方法将约束状态增强强化学习适配于蒸馏场景,引入了一种改进的奖励函数,该函数在无需状态增强或部署期间访问教师模型的情况下,仍能保持约束满足的理论保证,且避免了双重拉格朗日方法的计算开销。通过在数学推理任务上的广泛实验,我们证明相较于软拉格朗日松弛基线,我们的方法在保持竞争性任务性能的同时,实现了更高的约束满足率和更优的推理能力。我们的框架为资源受限环境下的奖励感知蒸馏提供了一个理论基础坚实且实践高效的解决方案。
近期,基于推理的大型语言模型(RLMs),尤其是那些通过验证器强化学习训练的模型,在少样本思维链(CoT)下的表现往往不如直接回答。我们利用DeepSeek-R1提供的高质量推理轨迹作为示例,重新审视了这一悖论,发现增加示例数量反而持续降低准确性,即便示例本身是最优的。深入分析揭示了导致这一下降的两大机制:(一)语义误导,即高文本相似性使模型将目标问题视为与示例相同,从而逐字复制中间步骤;(二)策略迁移失败,即模型难以提取有效的推理策略并将其应用于目标问题。基于此,我们提出了“洞察至解决”(Insight-to-Solve, I2S),一种顺序测试时处理流程,它将示例转化为明确、可复用的洞察,并生成针对特定目标的推理轨迹;可选地,推理过程会自我优化以确保连贯性与正确性(I2S+)。在多样化的基准测试中,I2S和I2S+均一致超越了直接回答及测试时扩展基线,适用于开源与闭源模型。即便是GPT模型,我们的方法也显著提升其表现:在AIME'25上,GPT-4.1提升了+14.0%,o1-mini在AIME和GPQA上分别提升了+2.7%和+1.7%,这表明通过“洞察-优化-解决”框架,上下文示例能够被有效利用。
掩码扩散语言模型(MDLMs)近期作为一种有前景的自回归(AR)语言模型替代方案崭露头角,其优势包括并行解码、灵活的生成顺序以及可能减少推理步骤。尽管具备这些优点,针对MDLMs的解码策略和强化学习(RL)算法仍待深入探索。一种直观的做法是将AR模型中成熟的技术直接迁移至MDLMs。然而,这引发了一个直接的问题:这种简单的迁移是否真的最优?例如,1)块状和半自回归解码策略并未在MDLMs的训练过程中使用,为何在推理时它们却优于全扩散式解码?2)将专为AR模型设计的RL算法直接应用于MDLMs,由于MDLM解码是非因果的(并行),导致了训练与推理间的不一致性,表现为滚动轨迹与优化轨迹之间的不一致。为解决这些挑战,我们提出了EOS早期拒绝(EOSER)和递增步长(ASS)解码调度器,它们释放了MDLMs进行全扩散式解码的潜力,以更少的解码步骤实现了竞争性的性能。此外,我们引入了用于驯服MDLMs的一致性轨迹组相对策略优化(CJ-GRPO),强调滚动轨迹与优化轨迹的一致性,并减少了由跳步优化引起的优化误差。我们在LLaDA-8B-Instruct上对数学和规划等推理任务进行了广泛实验。结果表明,所提出的EOSER和ASS机制,结合CJ-GRPO,在有效且高效地驯服MDLMs方面展现出显著潜力。代码地址:https://github.com/yjyddq/EOSER-ASS-RL。
基于视觉语言模型(VLM)的图形用户界面(GUI)代理在自动化复杂桌面和移动任务方面展现出潜力,但在应用强化学习(RL)时面临显著挑战:(1)与GUI环境的多轮交互速度缓慢,影响策略部署;(2)代理与环境的高质量交互不足,制约策略学习。为应对这些挑战,我们提出了DART,一种面向GUI代理的解耦式强化学习训练框架,它以高度解耦的方式协调异构模块。DART将训练系统划分为四个异步模块:环境集群、部署服务、数据管理器和训练器。这一设计实现了非阻塞通信、异步训练、按部署轨迹采样及按工作器模型同步,显著提升了系统效率:部署GPU利用率提升1.6倍,训练吞吐量提升1.9倍,环境利用率提升5.5倍。为促进从海量样本中有效学习,我们引入了一种自适应数据筛选机制:(1)预先收集挑战性任务的成功轨迹,以补充在线采样中稀疏的成功案例;(2)根据任务难度动态调整部署次数和轨迹长度;(3)选择性训练高熵步骤,优先处理关键决策;(4)通过截断重要性采样稳定学习,缓解策略部署与更新间的策略失配问题。在OSWorld基准测试中,DART-GUI-7B实现了42.13%的任务成功率,较基础模型绝对提升14.61%,并超越开源SOTA 7.34%。我们承诺通过computer-use-agents.github.io/dart-gui完全开源训练框架、数据及模型检查点,相信这是对开源强化学习训练社区的一次及时贡献。
人类反馈在使大型语言模型(LLMs)与人类偏好对齐方面起着关键作用。然而,此类反馈往往存在噪声或不一致,这可能会降低奖励模型的质量并阻碍对齐效果。尽管已提出多种自动化数据清洗方法以缓解这一问题,但对其有效性和泛化能力的系统性评估仍显不足。为填补这一空白,我们首次引入了一个全面基准,用于评估13种偏好数据清洗方法在LLM对齐背景下的表现。PrefCleanBench提供了一个标准化协议,以评估清洗策略在对齐性能及跨不同数据集、模型架构和优化算法上的泛化能力。通过统一并严格比较这些方法,我们揭示了决定数据清洗在对齐任务中成功与否的关键因素。该基准为通过提升数据质量来改进LLM对齐的规范化和可复现方法奠定了基础,凸显了数据预处理在负责任AI开发中至关重要但尚未充分探索的作用。我们发布了所有方法的模块化实现,以促进进一步研究:https://github.com/deeplearning-wisc/PrefCleanBench。
检索增强生成(RAG)旨在通过将大语言模型(LLMs)的响应基于检索到的文档来减少幻觉现象。然而,即便提供了正确且充分的上下文,基于RAG的LLMs仍会产生幻觉。一系列研究表明,这源于模型在利用外部上下文与内部知识之间的不平衡,已有多种方法尝试量化这些信号以检测幻觉。然而,现有方法需要大量超参数调优,限制了其泛化能力。我们提出了LUMINA,一个新颖的框架,通过上下文-知识信号检测RAG系统中的幻觉:外部上下文利用通过分布距离量化,而内部知识利用则通过追踪预测标记在Transformer层间的演变来测量。我们进一步引入了一个框架,用于统计验证这些测量结果。在常见的RAG幻觉基准测试和四个开源LLMs上的实验表明,LUMINA在AUROC和AUPRC得分上持续表现优异,在HalluRAG上比之前基于利用的方法高出最多+13%的AUROC。此外,LUMINA在检索质量和模型匹配的宽松假设下仍保持稳健,兼具有效性和实用性。
当前,大型语言模型(LLMs)已成为跨多个领域的强大问题解决工具,随着模型规模、训练集规模及训练集质量的提升,其能力持续增强,这一点已通过业界广泛的研究与实验得到证实。如今,训练一个前沿模型需要消耗数十至数百亿亿次浮点运算(yottaflops),这无疑是对时间、计算资源及能源的巨大投入。因此,提升预训练效率对于推动下一代更强大LLMs的发展至关重要。尽管8位浮点数(FP8)训练已普遍采用,但向更低精度如4位浮点数(FP4)的过渡,有望在计算速度与资源利用上带来进一步的提升。然而,这一级别的量化对训练稳定性、收敛性及实施提出了挑战,尤其是在处理长序列标记的大规模模型训练时。 本研究提出了一种采用NVFP4格式进行大型语言模型稳定且精确训练的新方法。该方法融合了随机哈达玛变换(RHT)以限制块级异常值,采用二维量化方案确保前向与反向传播中的表示一致性,利用随机舍入实现无偏梯度估计,并引入了选择性高精度层。我们通过在10万亿标记上训练一个120亿参数的模型——这是迄今为止公开记录的最长4位精度训练过程——验证了该方法的有效性。结果显示,采用基于NVFP4的预训练技术训练的模型,其训练损失与下游任务准确率与FP8基线相当。这些发现表明,结合我们的训练方法,NVFP4在低精度LLM训练算法中迈出了重要一步。
自回归(AR)模型在图像生成领域展现出巨大潜力,然而连续令牌的AR变体往往落后于潜在扩散模型和掩码生成模型。其核心问题在于VAE潜在空间中的异质性方差,这种方差在AR解码过程中被放大,尤其是在无分类器指导(CFG)下,可能导致方差崩溃。为此,我们提出了SphereAR来解决这一问题。其核心设计是将所有AR输入和输出——包括CFG后的结果——约束在一个固定半径的超球面上(保持恒定的ℓ₂范数),并利用超球面VAE。我们的理论分析表明,超球面约束消除了尺度分量(方差崩溃的主要原因),从而稳定了AR解码过程。实验证明,在ImageNet生成任务中,SphereAR-H(943M参数)为AR模型树立了新的标杆,达到了FID 1.34。即便在较小规模下,SphereAR-L(479M参数)也实现了FID 1.54,而SphereAR-B(208M参数)则达到了1.92,与更大规模的基线模型如MAR-H(943M参数,1.55)和VAR-d30(2B参数,1.92)相比,表现相当或更优。据我们所知,这是首次纯基于下一令牌预测、采用光栅顺序的自回归图像生成器,在参数规模相当的情况下,超越了扩散模型和掩码生成模型。
随着大语言模型(LLMs)在科学推理中的应用日益广泛,答案格式的复杂性和等价表达的多样性使得答案验证成为一项关键而富有挑战性的任务。现有的科学领域验证研究存在两大局限:(a)缺乏系统化的评估标准和学科覆盖不足,阻碍了其全面评估;(b)过度依赖繁琐的规则设计或提示工程,降低了其在复杂推理场景中的有效性或限制了其跨学科泛化能力。为应对这些挑战,我们提出了数据与模型层面的解决方案。在数据层面,我们构建了SCI-VerifyBench,一个涵盖数学、物理、生物、化学及通用科学问答的跨学科基准。该基准基于真实LLM响应构建,并通过领域特定的等价变换增强,生成了具有挑战性和现实性的数据。模型与专家标注确保了数据的质量与多样性,为验证能力的严格评估提供了基础。在模型层面,我们强调推理在验证中的重要性,并引入了SCI-Verifier,一个面向科学领域的统一推理增强验证器。通过后训练,SCI-Verifier展现出强大的逻辑推理与等价判断能力,同时保持输出简洁稳定。SCI-VerifyBench与SCI-Verifier共同为科学验证提供了一个原则性框架,不仅提供了系统化的评估方法,还为提高LLMs在科学领域中的可靠性与适用性开辟了实用路径。
增强搜索功能的大型语言模型(LLMs)在处理复杂推理任务时,常因多跳检索效率低下和推理能力有限而表现不佳。我们提出了AceSearcher,一种协同自对弈框架,该框架训练单一大型语言模型在两种角色间切换:分解者负责拆分复杂查询,而解答者则整合检索到的上下文以生成答案。AceSearcher结合了在多样化搜索、推理及分解任务上的监督微调,以及针对最终答案准确率优化的强化微调,无需中间标注。在涵盖10个数据集的三个推理密集型任务上的广泛实验表明,AceSearcher超越了现有最先进的基线模型,平均精确匹配率提升了7.6%。尤为突出的是,在文档级金融推理任务上,AceSearcher-32B以不足DeepSeek-V3模型5%的参数规模,达到了与之相当的性能。即便在较小规模(1.5B和8B)下,AceSearcher也常常超越参数规模多达9倍的现有搜索增强型LLMs,彰显了其在应对复杂推理任务上的卓越效率与效能。我们的代码将发布于https://github.com/ritaranx/AceSearcher 和 https://huggingface.co/AceSearcher。
大型语言模型(LLM)代理,通过整合规划、记忆、反思及工具使用模块,在解决复杂多步骤任务中展现出潜力。然而,其复杂的架构也放大了级联故障的脆弱性,即单一根本原因错误会蔓延至后续决策,导致任务失败。现有系统缺乏一个能够以模块化和系统化方式全面理解代理错误的框架,因而无法相应检测这些错误。针对这一空白,我们做出了三项贡献。首先,我们提出了AgentErrorTaxonomy,一种涵盖记忆、反思、规划、行动及系统级操作的模块化故障模式分类体系。其次,我们构建了AgentErrorBench,这是首个基于ALFWorld、GAIA和WebShop中系统标注的失败轨迹数据集,为错误分析提供了现实世界代理运行的实证基础。第三,我们提出了AgentDebug,一个调试框架,能够隔离根本原因故障并提供纠正反馈,使代理能够恢复并迭代改进。在AgentErrorBench上的实验表明,与最强基线相比,AgentDebug在全正确准确率上提升了24%,在步骤准确率上提升了17%。除了检测功能外,AgentDebug生成的针对性反馈使LLM代理能够从失败中迭代恢复,在ALFWorld、GAIA和WebShop上的任务成功率相对提升了最高达26%。这些成果确立了基于原则的调试作为通向更可靠、适应性更强的LLM代理的途径。代码与数据将发布于https://github.com/ulab-uiuc/AgentDebug。
长视频理解对于当前的大型视频语言模型(LVLMs)仍具挑战性,主要源于长时态理解与精细空间感知之间的矛盾。采用统一帧采样机制的LVLMs,即以相同帧尺寸和固定采样率抽取帧,不可避免地牺牲了时间线索或空间细节,导致解决方案不尽如人意。为缓解这一困境,我们提出了LOVE-R1模型,该模型能够自适应地对视频片段进行放大处理。模型首先接收高密度采样但分辨率较低的帧;若需获取某些空间细节,模型可根据其推理过程,对感兴趣片段进行高分辨率放大,直至获取关键视觉信息。整个过程被实现为多步推理。为训练推理能力,我们首先在收集的38k高质量CoT数据上微调模型,并通过解耦的强化微调进一步增强。鉴于结果奖励无法提供细粒度的过程监督,我们将多步推理分解为多个单步推理,并显式优化内部放大能力。在长视频理解基准测试中,采用慢快自适应帧采样机制的模型在采样密度与帧分辨率之间取得了良好平衡,LOVE-R1在四个常见长视频理解基准上平均超越基线模型Qwen2.5-VL达3.1个百分点。
偏好优化对于将大型语言模型(LLMs)与人类价值观和意图对齐至关重要。这一过程中的一大挑战在于预收集的离线偏好数据与不断演变的模型策略之间的分布不匹配。现有方法尝试通过静态启发式或解耦的在线采样策略来缩小这一差距,但它们往往难以适应模型的动态学习状态。为弥合这一差距,我们提出了元加权自适应偏好优化(MetaAPO),这是一种新颖的框架,能够动态地将数据生成与模型训练相结合。MetaAPO采用轻量级元学习器作为“对齐差距估计器”,评估在线采样相对于离线数据的潜在收益。这指导了有针对性的在线生成,并为优化目标分配样本级元权重,动态平衡在线与离线数据的质量与分布。在AlpacaEval 2、Arena-Hard和MT-Bench上的实验表明,MetaAPO在各种设置下均优于现有的偏好优化方法,同时减少了42%的在线标注成本。
多主体图像生成旨在将用户提供的多个主体合成至单一图像中,同时保持主体保真度、确保提示一致性,并符合人类审美偏好。然而,现有方法,尤其是基于上下文学习范式的技术,受限于其依赖简单重建目标,导致严重的属性泄露,损害了主体保真度,且未能与细致的人类偏好对齐。为此,我们提出了MultiCrafter框架,以实现高保真、偏好对齐的生成。首先,我们发现属性泄露的根本原因在于生成过程中不同主体间注意力显著纠缠。因此,我们引入了显式的位置监督,明确分离每个主体的注意力区域,有效缓解了属性泄露。为了使模型能在多样场景中准确规划不同主体的注意力区域,我们采用了专家混合架构来增强模型能力,让不同专家专注于不同场景。最后,我们设计了一种新颖的在线强化学习框架,使模型与人类偏好对齐,该框架包含一个评分机制以精确评估多主体保真度,以及一个为MoE架构量身定制的更稳定的训练策略。实验验证了我们的框架在显著提升主体保真度的同时,更好地与人类偏好保持一致。
结构化图像(如图表和几何图示)对于多模态大语言模型(MLLMs)而言仍具挑战性,因为感知上的失误可能引发一连串错误结论。中间视觉线索虽能引导推理,但现有的基于线索的方法受限于低保真度图像处理及线性、僵化的推理模式,在处理复杂结构化图像任务时效果有限。本文提出PixelCraft,一种新颖的多代理系统,专为高保真图像处理及灵活视觉推理而设计,适用于结构化图像。该系统包含调度器、规划器、推理器、批评者及一组视觉工具代理。为实现高保真处理,我们构建了一个高质量语料库,并将一个MLLM微调为基础模型,其像素级定位与工具代理中的传统计算机视觉(CV)算法相结合。在此基础上,PixelCraft通过工具选择、代理讨论及自我批评的动态三阶段工作流,促进灵活视觉推理。此外,与以往简单附加历史图像的线性推理模式不同,PixelCraft维护一个图像记忆,使规划器能在讨论过程中自适应地回顾早期视觉步骤、探索替代推理分支,并动态调整推理轨迹。在具有挑战性的图表和几何基准测试上的广泛实验表明,PixelCraft显著提升了高级MLLMs的视觉推理性能,为结构化图像推理设立了新标准。我们的代码将发布于https://github.com/microsoft/PixelCraft。
强化学习(RL)已成为推动大语言模型(LLMs)发展的核心范式,其中预训练与RL后训练共享相同的对数似然公式。相比之下,近期针对扩散模型的RL方法,尤其是去噪扩散策略优化(DDPO),优化的是一个与预训练目标——分数/流匹配损失——不同的目标。在本研究中,我们提出了一种新颖的理论分析:DDPO实质上是一种带有噪声目标的隐式分数/流匹配,这增加了方差并减缓了收敛速度。基于这一分析,我们引入了优势加权匹配(AWM),一种针对扩散模型的策略梯度方法。它采用与预训练相同的分数/流匹配损失来获得一个方差更小的目标,并根据每个样本的优势进行重新加权。实际上,AWM提升了高奖励样本的影响力,同时抑制了低奖励样本,同时保持建模目标与预训练一致。这一设计在概念和实践上统一了预训练与RL,符合策略梯度理论,降低了方差,并实现了更快的收敛。这一简洁而有效的设计带来了显著的优势:在GenEval、OCR和PickScore基准测试中,当应用于Stable Diffusion 3.5 Medium和FLUX时,AWM相比基于DDPO的Flow-GRPO实现了高达24倍的加速,且未牺牲生成质量。代码可在https://github.com/scxue/advantage_weighted_matching获取。
近期进展,如DeepSeek-R1所示,GRPO算法作为一种强化学习(RL)方法,能够有效训练大语言模型(LLMs)和视觉语言模型(VLMs)中的思维链(CoT)推理。本文中,我们分析了GRPO面临的三大挑战:思维与答案间的梯度耦合、有限并行采样导致的稀疏奖励信号,以及不稳定的优势估计。为应对这些挑战,我们提出了GRPO-MA,这是一种简单却理论扎实的方法,它利用每个思维过程生成多答案,从而实现更稳健高效的优化。理论上,我们证明了随着每个思维生成答案数量的增加,思维优势的方差会降低。实证中,我们的梯度分析验证了这一效果,显示GRPO-MA相较于GRPO减少了梯度尖峰。在数学、编程及多样化多模态任务上的实验表明,GRPO-MA显著提升了模型性能与训练效率。进一步的消融研究揭示,增加每个思维的答案数量持续增强模型表现。
针对下游任务对预训练大型语言模型(LLMs)进行微调,是人工智能部署流程中的关键环节。强化学习(RL)无疑是最为突出的微调方法,为众多顶尖LLMs的诞生做出了贡献。相比之下,进化策略(ES)虽曾在参数规模为数百万的模型上展现出与RL相媲美的性能,却因被认为难以扩展至更大模型而遭到忽视。本研究首次成功实现了利用ES对LLMs全部参数进行大规模微调,揭示了ES能够在数十亿参数规模上高效搜索,并在多个方面超越现有RL微调方法的惊人事实,包括样本效率、对长周期奖励的耐受性、对不同基础LLMs的鲁棒性、更低的奖励欺骗倾向以及跨运行更稳定的性能表现。因此,本研究为超越当前RL技术,开辟LLM微调新方向奠定了基础。源代码已发布于:https://github.com/VsonicV/es-fine-tuning-paper。
视频联合嵌入预测架构(V-JEPA)通过利用指数移动平均(EMA)更新的教师模型预测潜在空间中的掩码区域,学习可泛化的现成视频表示。虽然EMA防止了表示崩溃,但它使模型选择的可扩展性复杂化,并将教师和学生架构紧密耦合。我们重新审视了掩码潜在预测,并证明冻结的教师模型已足够。具体而言,我们(i)在V-JEPA掩码下,以简单的像素重建目标训练目标编码器,然后(ii)冻结该编码器,并训练学生模型以预测教师模型在掩码区域的潜在表示。这形成了一种两阶段、无正则化的方案,我们称之为SALT(静态教师非对称潜在训练)。SALT将优化解耦为像素重建(教师)和掩码潜在预测(学生),提高了透明度、效率和可扩展性,同时保持了表示在冻结评估下的泛化能力。实验表明,在冻结骨干评估下,我们的学生模型在多种基准测试中超越了最近提出的V-JEPA 2编码器。它们还更具计算效率:在相同的预训练浮点运算(FLOPs)下,我们的方法实现了更高的探测准确率,其扩展曲线主导了V-JEPA的准确率-FLOPs帕累托前沿。最后,我们发现学生模型的质量对教师模型的质量表现出显著的鲁棒性:即使使用小型、次优的教师模型,也能涌现出高性能的学生模型。这指向了一种应极大倾向于学生模型的计算预算分配。这些结果表明,SALT作为一种简单、可扩展且计算高效的替代方案,适用于基于EMA的自蒸馏视频表示学习。
我们推出了DafnyCOMP,这是一个用于评估大型语言模型(LLMs)在Dafny中组合式规范生成能力的基准测试。与以往专注于单函数任务的基准不同,DafnyCOMP针对的是由多个相互依赖的函数组成、具有数据依赖性的程序,要求跨越组件边界进行推理。该基准包含300个自动合成的多函数程序。我们对多个最先进的LLM家族进行了评估,发现尽管它们在单函数验证上表现良好,但在组合任务上的性能却急剧下降。分析揭示了跨函数推理中的系统性失败,包括脆弱的规范、实现与证明之间的错位,以及不稳定的推理。因此,DafnyCOMP为衡量LLMs在可靠、可验证及组合式代码生成方面的进展提供了一个诊断工具。
大型推理模型(LRMs)通过思维链(CoT)推理在复杂问题解决中展现了卓越能力。然而,CoT的多步骤特性引入了超越传统语言模型对齐的新安全挑战。我们识别出当前安全CoT调优方法中的一个失效模式:雪球效应,即微小的推理偏差在思维过程中逐步放大,导致有害的顺从或过度拒绝。这一效应源于模型被训练模仿完美推理脚本,而未学会自我纠正。为应对这一局限,我们提出AdvChain,一种通过对抗性CoT调优教导模型动态自我纠正的对齐范式。我们的方法包括构建包含诱惑-纠正和犹豫-纠正样本的数据集,使模型学会从有害推理偏差和不必要的谨慎中恢复。大量实验表明,AdvChain显著增强了对越狱攻击和CoT劫持的鲁棒性,同时大幅减少了对良性提示的过度拒绝,在不损害推理能力的情况下实现了更优的安全-效用平衡。我们的工作为构建更稳健可靠的推理模型开辟了新方向。
统一视频建模,融合生成与理解能力,正变得日益重要,但面临两大关键挑战:在基于流的生成过程中,由于文本与视觉标记的不平衡以及跨模态注意力在流轨迹上的统一性限制,难以保持语义忠实度;以及如何高效地将以图像为中心的多模态大语言模型(MLLMs)扩展至视频领域,而无需昂贵的重新训练。我们提出了UniVid,一种统一架构,通过轻量级适配器将MLLM与扩散解码器耦合,实现视频理解与生成的双重功能。我们引入了温度模态对齐技术以增强提示遵循度,以及金字塔反射机制,通过动态关键帧选择实现高效的时间推理。在标准基准上的广泛实验表明,UniVid达到了最先进的性能,相较于EasyAnimateV5.1,在VBench-Long总分上提升了2.2%,在MSVD-QA和ActivityNet-QA上分别比之前最佳的7B基线模型提高了1.0%和3.3%的准确率。
大型语言模型(LLMs)在文本到SQL任务中展现出了日益增强的效能。然而,另一个紧密相关的问题——跨系统SQL翻译(亦称SQL-to-SQL),即将针对一个数据库系统(如MySQL)编写的查询适配为另一系统(如ClickHouse)的等效查询,虽具有极大的实际重要性,却仍未被充分探索。现有的SQL基准测试并不适合用于SQL-to-SQL的评估,原因在于它们(1)仅关注有限的数据库系统(通常仅为SQLite),且(2)无法捕捉众多系统特有的SQL方言(例如,自定义函数、数据类型及语法规则)。因此,本文引入了PARROT,一个实用且现实的跨系统SQL翻译基准测试。PARROT包含来自38个开源基准测试及真实商业服务的598对翻译样本,专门设计以挑战系统特定的SQL理解能力(例如,LLMs在此类任务上的平均准确率低于38.53%)。我们还提供了多个基准测试变体,包括包含28,003个翻译的PARROT-Diverse(用于广泛的语法测试)和包含5,306个代表性样本的PARROT-Simple(用于集中压力测试),覆盖了22个生产级数据库系统。为促进未来研究,我们公开了排行榜及源代码,访问地址为:https://code4db.github.io/parrot-bench/。
本文介绍了MathBode,一种用于诊断大型语言模型(LLMs)数学推理能力的动态方法。不同于一次性准确率评估,MathBode将每个参数化问题视为一个系统:我们通过正弦方式驱动单一参数,并拟合模型输出与精确解的一阶谐波响应。由此得到可解释的频率解析指标——增益(幅度跟踪)和相位(滞后),它们构成了Bode图式的特征指纹。在五个闭式问题族(线性求解、比率/饱和、复利、2x2线性系统、相似三角形)中,该诊断揭示了系统性的低通行为及逐渐增大的相位滞后,这些现象是单纯依赖准确率评估所无法察觉的。我们将多个模型与一个符号基准进行比较,后者用于校准仪器(增益G≈1,相位φ≈0)。结果显示,前沿模型与中端模型在动态特性上存在显著差异,提供了一个简洁、可复现的测试协议,该协议通过可操作的推理保真度与一致性测量,对标准基准测试形成了有力补充。我们开源了数据集与代码,以促进进一步的研究与应用。
随着基于大型语言模型(LLM)的代理在外部环境中的广泛应用,新的攻击面也随之产生,为恶意操控提供了可乘之机。其中一大威胁是间接提示注入攻击,即攻击者将恶意指令嵌入外部环境输出中,诱使代理将其解读并执行,仿佛这些指令是合法提示。尽管以往研究主要集中于纯文本注入攻击,我们发现了一个重要但尚未充分探索的漏洞:LLM对结构化聊天模板的依赖及其在具有说服力的多轮对话中易受上下文操控的特性。为此,我们提出了ChatInject攻击,该攻击通过模仿原生聊天模板的格式来嵌入恶意载荷,从而利用模型固有的指令遵循倾向。在此基础上,我们开发了一种基于说服策略的多轮对话变体,通过多轮对话引导代理接受并执行原本可疑的操作。通过对前沿LLM的全面实验,我们得出了三个关键发现:(1) ChatInject的平均攻击成功率显著高于传统提示注入方法,在AgentDojo上从5.18%提升至32.05%,在InjecAgent上从15.13%提升至45.90%,其中多轮对话在InjecAgent上表现尤为突出,平均成功率高达52.33%;(2) 基于聊天模板的载荷在模型间展现出强大的可迁移性,即便面对模板结构未知的闭源LLM,仍能保持有效;(3) 现有的基于提示的防御措施对此类攻击,尤其是多轮对话变体,基本无效。这些发现揭示了当前代理系统中的脆弱性。
大型多模态模型(LMMs)与云端AI代理的快速发展,正将人机协作转变为双向、多模态的互动模式。然而,现有的编解码技术仍主要针对单模态、单向通信进行优化,导致在传统的压缩-传输-重建流程中反复出现性能下降。为解决这一局限,我们提出了UniMIC,一个基于统一令牌的多模态交互编码框架,旨在连接边缘设备与云端AI代理。UniMIC摒弃了直接传输原始像素或纯文本的做法,转而采用紧凑的令牌化表示作为通信媒介,既实现了高效的低比特率传输,又保持了与LMMs的兼容性。为进一步提升压缩效率,UniMIC引入了轻量级Transformer熵模型,其设计针对不同场景——通用型、掩码型及文本条件型——有效减少了令牌间的冗余。在文本到图像生成、文本引导的图像修复、扩展以及视觉问答等任务上的广泛实验表明,UniMIC在显著节省比特率的同时,即便在超低比特率(<0.05bpp)下也能保持稳健,且不影响下游任务性能。这些成果确立了UniMIC作为下一代多模态交互通信的实用且前瞻性范式。
追求能够掌握复杂环境的人工智能代理已取得显著成就,然而主流的深度强化学习方法往往依赖于海量经验,将其知识隐晦地编码于神经网络权重之中。我们提出了一种不同的范式,即代理通过推理与规划来学习游戏。我们引入了“我思故我玩”(Cogito, ergo ludo, CEL),这是一种新颖的代理架构,它利用大型语言模型(LLM)构建对游戏环境机制及自身策略的显式、基于语言的理解。CEL从零开始,除动作集外无任何先验知识,通过交互与反思的循环运作。每轮游戏结束后,代理分析其完整轨迹,并行执行两项学习过程:规则归纳,即精炼其对环境动态的显式模型;以及策略与战术手册总结,将经验提炼为可操作的策略手册。我们在多种网格世界任务(如扫雷、冰冻湖面和推箱子)上评估CEL,结果表明,CEL代理能够通过自主发现游戏规则并从稀疏奖励中发展有效策略,成功掌握这些游戏。消融研究证实,迭代过程对于持续学习至关重要。我们的工作展示了一条通向更通用、更可解释代理的路径,这些代理不仅行动高效,还能通过对原始经验的显式推理,构建一个透明且不断改进的世界模型。
目标导向的语言引导导航要求智能体在未知环境中具备强大的探索能力,以便在没有逐步指令的情况下导航至指定目标。现有方法往往仅依赖最短路径轨迹,缺乏有效的探索先验来训练导航智能体。针对上述挑战,我们提出了SID,一种基于自我改进演示的目标导向语言引导导航学习方法。具体而言,SID首先从环境中采样的最短路径数据上训练初始智能体,随后利用该智能体生成新颖的探索轨迹。这些新颖的轨迹提供了具有更强探索策略的演示,用于训练更优的智能体,而该智能体又能为下一轮训练生成更高质量的演示。我们展示了这一迭代自我改进的流程能够轻松适应新环境,且生成的演示可跨多种语言引导导航任务迁移,从而提升多样化目标导向导航任务的性能上限。大量实验表明,SID显著增强了导航智能体的探索能力和泛化性能。最终,该智能体在包括REVERIE、SOON在内的目标导向语言引导导航任务中实现了新的最先进性能,特别是在SOON未见验证集上达到了50.9%的成功率,较之前领先方法提升了13.9%。
测试驱动开发(TDD)是一种广泛采用的软件工程实践,要求开发者在编写代码的同时创建并执行测试,以确保软件行为得到持续验证与优化。在“氛围编程”时代,开发者越来越多地通过指定高层意图将代码编写任务委托给大型语言模型(LLMs),TDD因此变得更为关键,因为测试用例作为可执行的规范,能够明确界定并验证预期功能,超越自然语言描述和代码上下文所能传达的信息。尽管在TDD框架下的氛围编程前景广阔,但仍面临三大挑战:(1) 选择一套精简而高效的测试集,以提升生成准确性并控制执行工作量;(2) 有效检索相关代码等上下文信息;(3) 系统化利用测试反馈进行有效的代码优化。为应对这些挑战,我们引入了TENET,一个在TDD环境下为复杂现实世界代码库生成函数的LLM代理。TENET具备三大特色:(1) 一种新颖的测试套件机制,精选测试集以最大化目标使用场景的多样性;(2) 一套定制的代理工具集,实现高效的相关代码检索与交互式调试;(3) 基于反思的优化工作流,迭代分析失败案例、补充上下文并应用代码优化。在RepoCod和RepoEval基准测试中,TENET分别以69.08%和81.77%的Pass@1成绩,超越了最佳代理基线9.49和2.17个百分点。此外,这是首次在仓库级上下文下研究测试驱动代码生成,探讨了测试套件的不同方面如何影响TDD环境下LLM代理的性能。
预测人类移动行为本质上具有挑战性,这源于复杂的长期依赖关系和多尺度周期性行为。为解决这一问题,我们提出了RHYTHM(基于层次化时间标记化的人类移动推理框架),这是一个统一框架,利用大型语言模型(LLMs)作为通用时空预测器和轨迹推理器。在方法论上,RHYTHM采用时间标记化技术,将每条轨迹分割为每日片段,并通过层次化注意力机制将其编码为离散标记,既捕捉了每日也涵盖了每周的依赖关系,从而在保留周期信息的同时显著缩短了序列长度。此外,我们通过预计算提示嵌入来丰富标记表示,这些嵌入针对轨迹片段和预测目标,经由冻结的LLM处理后,将组合后的嵌入反馈至LLM主干,以捕获复杂的相互依赖关系。在计算层面,RHYTHM冻结了预训练LLM的主干,以降低注意力复杂度和内存消耗。我们在三个真实世界数据集上对模型进行了评估,与最先进方法相比,RHYTHM在整体准确率上提升了2.4%,周末预测准确率提高了5.0%,训练时间减少了24.6%。代码已公开于https://github.com/he-h/rhythm。
理解大型语言模型(LLMs)如何执行复杂推理及其失效机制,是解释性研究中的一大挑战。为提供可量化的几何分析视角,我们定义了“推理流形”这一概念,即由所有正确推理生成对应的内部表征所形成的潜在低维几何结构。该结构可被视作模型为成功解决特定任务而习得的有效思维路径的具象化体现。基于此概念,我们构建了REMA框架,通过定量比较错误与正确推理样本对应的内部模型表征之间的空间关系,来解释失效的根源。具体而言,REMA首先通过计算每个错误表征与由正确表征近似形成的流形之间的k近邻距离,量化其几何偏差,从而提供统一的失效信号。随后,通过追踪该偏差度量在模型各层的变化,并与正确表征的内部波动基线进行对比,REMA定位了这些偏差首次显著出现的分歧点,从而识别出推理链开始偏离正轨的位置。我们在多种语言和多模态模型及任务上的广泛实验,验证了推理流形的低维特性以及错误与正确推理表征间的高度可分性。实验结果也证实了REMA框架在分析推理失效根源方面的有效性。本研究将抽象的推理失效与表征中可测量的几何偏差相联系,为深入理解和诊断黑箱模型的内部计算过程开辟了新途径。
可扩展性推动了生成建模领域的最新进展,然而其在对抗学习中的原理仍待深入探索。我们通过两项在其他类型生成模型中已被证明有效的设计选择,来研究生成对抗网络(GANs)的可扩展性:在紧凑的变分自编码器潜在空间中进行训练,以及采用纯基于Transformer的生成器和判别器。在潜在空间中进行训练既保持了感知保真度,又实现了高效计算,这种效率与纯Transformer模型天然契合,后者的性能随计算预算的增加而提升。基于这些选择,我们分析了在简单扩展GANs时出现的失败模式。具体而言,我们发现生成器早期层利用不足以及网络扩展时优化不稳定的问题。为此,我们提出了简单且适应扩展的解决方案,如轻量级中间监督和宽度感知的学习率调整。实验表明,GAT——一种纯基于Transformer且在潜在空间训练的GAN,能够轻松可靠地在多种容量规模(从S到XL)下进行训练。此外,GAT-XL/2在ImageNet-256上仅用40个epoch就实现了单步、类别条件生成的最先进性能(FID为2.96),比强基线模型少用了6倍的训练周期。
在信息过载的当下,简洁概括长篇文档的能力日益重要,然而针对西班牙语文档的摘要资源普遍匮乏,尤其是在法律领域。本研究推出了BOE-XSUM数据集,该数据集精心收录了3,648份来自西班牙《国家官方公报》(BOE)的文档,每份文档均配有简明易懂的摘要、原文及其文档类型标签。我们评估了在BOE-XSUM上微调的中等规模大语言模型(LLMs)的表现,并将其与零样本设置下的通用生成模型进行了对比。结果显示,经过微调的模型显著优于非专用模型。特别值得一提的是,表现最佳的模型——BERTIN GPT-J 6B(32位精度)——相较于最佳零样本模型DeepSeek-R1,性能提升了24%(准确率分别为41.6%与33.5%)。
配对的RGB-热成像数据对于视觉-热成像传感器融合及跨模态任务至关重要,这些任务包括多模态图像对齐与检索等重要应用。然而,同步且校准的RGB-热成像图像对的稀缺,严重阻碍了这些领域的进展。为应对这一挑战,RGB到热成像(RGB-T)图像翻译技术应运而生,它能够从丰富的RGB数据集中合成热成像图像,用于训练目的。本研究提出ThermalGen,一种基于自适应流的RGB-T图像翻译生成模型,融合了RGB图像条件架构与风格解耦机制。为支持大规模训练,我们整合了八个公开的卫星-航空、航空及地面RGB-T配对数据集,并引入了三个新的大规模卫星-航空RGB-T数据集——DJI-day、Bosonplus-day和Bosonplus-night,这些数据集跨越了不同时间、传感器类型及地理区域。在多个RGB-T基准上的广泛评估表明,ThermalGen在翻译性能上可与现有的基于GAN和扩散模型的方法相媲美甚至更优。据我们所知,ThermalGen是首个能够合成反映显著视角变化、传感器特性及环境条件差异的热成像图像的RGB-T图像翻译模型。项目页面:http://xjh19971.github.io/ThermalGen
近期,大型语言模型(LLMs)在推理任务上的重大突破主要依赖于大规模、高质量的数据集——这些数据集通常由人工标注,因此难以扩展。尽管数据合成或蒸馏提供了一种有前景的替代方案,但现有方法在数据质量不一致和无法动态适应模型能力演变方面存在不足,导致训练信号不理想。为解决这些局限,我们引入了Socratic-Zero,这是一个完全自主的框架,通过三个代理——教师、求解器和生成器的协同进化,从少量种子示例中生成高质量的训练数据。求解器通过从成功和失败轨迹的偏好反馈中不断优化其推理能力;教师根据求解器的弱点自适应地设计越来越具挑战性的问题;生成器则提炼教师的问题设计策略,以实现可扩展、高保真的课程生成。这一闭环系统产生了一个自我改进的课程——无需预先存在的任务或标签。值得注意的是,仅从100个种子问题出发,我们的Socratic-Solver-8B在七个数学推理基准(AMC23、AIME24-25、奥赛、MATH-500、Minerva和GSM8K)上,相较于先前的数据合成方法,平均提升了20.2个百分点,且在Qwen3和GLM4系列模型上均表现出持续的优势。更令人惊讶的是,Socratic-Generator-32B生成的合成数据使得学生LLMs在这些基准上的表现超越了其他最先进的(SOTA)商业LLMs,包括Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4和Claude-4.1-Opus。
网页到代码的转换任务要求模型能够理解网页的视觉呈现并生成相应的代码。然而,现有的基准测试主要集中于静态截图到代码的任务,从而忽视了现实世界网络应用中至关重要的动态交互。为应对这一局限,本文引入了IWR-Bench,一个新颖的基准测试,用于评估大型视觉语言模型(LVLMs)在从视频中重建交互式网页方面的能力。IWR-Bench包含从100个真实网站中精心挑选的113项任务,涉及1,001个动作,并展现了多样的交互复杂度(如网页游戏)、视觉风格及领域。遵循标准网页开发实践,每项任务不仅包含用户交互视频,还囊括了所有抓取的静态资源(如图片、视频)。该基准测试评估模型在两大基本挑战上的表现:一是从视频和资源中推断交互逻辑的全面多模态推理能力,二是将这一逻辑转化为功能代码的高级代码生成能力。采用“代理即裁判”框架及一套综合指标系统,自动评估生成网页的功能正确性和视觉保真度。对28个LVLMs的广泛实验揭示了一个显著挑战:最佳模型的总体得分仅为36.35%,其中功能正确性(24.39% IFS)远落后于视觉保真度(64.25% VFS)。这些结果凸显了当前模型在推理时间动态性和合成事件驱动逻辑方面的关键局限,确立了IWR-Bench作为视觉语言研究领域的一个艰巨前沿。基准测试及评估代码将公开提供,代码可见于https://github.com/L-O-I/IWR-Bench。
本文介绍了BPMN Assistant,这是一款利用大型语言模型(LLMs)实现基于自然语言的BPMN图创建与编辑的工具。为提升流程修改的准确性,我们引入了一种基于JSON的专用表示法,作为直接处理XML的结构化替代方案。流程生成质量通过图编辑距离(GED)和相对图编辑距离(RGED)进行评估,而编辑性能则采用二元成功指标进行衡量。结果显示,在生成任务中,JSON与XML的相似度评分相近,但JSON提供了更高的可靠性、更快的处理速度以及显著更高的编辑成功率。我们探讨了关键权衡、局限性及未来改进方向。该工具的实现代码可在https://github.com/jtlicardo/bpmn-assistant获取。
维基百科作为全球最大的开放知识库,被广泛使用,并成为训练大型语言模型(LLMs)和检索增强生成(RAG)系统的关键资源。因此,确保其准确性至关重要。然而,维基百科的准确度究竟如何,我们又该如何提升它呢? 我们聚焦于不一致性这一特定类型的事实错误,并引入了语料库级别的不一致性检测任务。我们提出了CLAIRE,一个结合了LLM推理与检索的智能系统,旨在揭示潜在的不一致声明,并提供上下文证据供人工审查。在一项有经验的维基百科编辑参与的用户研究中,87.5%的参与者表示使用CLAIRE后信心增强,且在同一时间内,参与者识别出的不一致性增加了64.7%。 通过将CLAIRE与人工标注相结合,我们贡献了WIKICOLLIDE,这是首个真实维基百科不一致性的基准测试集。利用CLAIRE辅助的随机抽样分析,我们发现至少3.3%的英文维基百科事实与其他事实相矛盾,这些不一致性进一步影响了7.3%的FEVEROUS和4.0%的AmbigQA示例。在该数据集上对强基线模型进行基准测试,显示出显著的提升空间:最佳全自动化系统的AUROC仅为75.1%。 我们的研究结果表明,矛盾是维基百科中可量化的组成部分,而基于LLM的系统如CLAIRE,能够为编辑人员提供实用工具,助力大规模提升知识一致性。
人工智能(AI)系统,尤其是大型语言模型(LLMs),正越来越多地被应用于诸如科学创意生成等创造性任务中,这构成了一种现有概念框架尚未涉及的对训练数据的泛化形式。尽管与组合泛化(CG)有相似之处,组合创造力(CC)却是一种开放性的能力。不同于针对固定目标评估准确性或正确性——这与CC的开放性本质相悖——我们提出了一种理论框架和算法任务,通过输出的新颖性和实用性程度来评估它们。基于此,我们做出了几项重要的实证贡献:(1)我们首次洞察了LLMs创造力随规模扩展的行为。(2)我们发现,在固定的计算预算下,存在最优的模型深度和宽度以发挥创造力。(3)我们观察到,LLMs在生成新颖科学创意方面表现出色,但在确保其实际可行性方面却面临挑战,这一“构思-执行”差距可能源于创造力算法中更为基础的新颖性与实用性之间的权衡。重要的是,这种权衡即使在规模扩大时依然存在,对LLMs当前形态下的长期创造力潜力提出了质疑。综合来看,我们的概念框架和实证发现为理解和提升现代AI模型的创造力奠定了基础,弥合了人类与机器智能之间的鸿沟。
在直接取材于生活进行编辑时,摄影师们发现同时捕捉“蓝”与“天空”的视觉感知颇为困难。摄影师兼策展人Szarkowski敏锐地揭示了一般视觉理解与美学视觉理解之间的一大显著差异:前者侧重于识别图像中的实体元素(如天空),而后者则超越了这种对象识别,将其视为美学构成——一块纯粹的色彩(蓝)。这种一般视觉理解(检测、定位等)与美学视觉理解(色彩、光影、构图等)之间的根本区别,对多模态大语言模型(MLLMs)构成了重大挑战。尽管近期一些研究已进行了初步探索,但它们往往局限于一般及基础的美学常识,因此在现实场景中(如图1所示)常显不足,这些场景需要深厚的专业知识——包括摄影技巧、照片前后期处理知识等,以提供详尽的分析与描述。为了从根本上提升MLLMs的美学理解能力,我们首先引入了一个新颖的数据集——PhotoCritique,该数据集源自专业摄影师与爱好者间的广泛讨论,具有大规模、专业性和多样性的特点。随后,为了更好地从PhotoCritique中学习视觉美学,我们进一步提出了一种新模型——PhotoEye,它采用语言引导的多视角视觉融合机制,从多个角度理解图像美学。最后,我们推出了一个全新的基准测试——PhotoBench,这是一个全面且专业的美学视觉理解基准。在现有基准及PhotoBench上,我们的模型相较于现有模型展现出了明显的优势。
视觉语言模型(VLMs)能够通过文本交互灵活处理多种视觉任务。尽管在语义理解方面取得了成功,包括GPT-5在内的最先进VLMs在从2D输入理解3D信息时仍面临挑战。另一方面,专业的纯视觉模型在度量深度估计这一关键3D理解任务上达到了超人的准确度,但它们需要特定任务的架构和损失函数。这种差异促使我们提出疑问:VLMs能否在不改变架构或损失函数的情况下达到专家级准确度?我们以逐像素度量深度估计作为代表性任务,并证明答案是肯定的!令人惊讶的是,综合分析表明,基于文本的稀疏标签监督微调足以让VLMs解锁强大的3D理解能力,无需密集预测头或复杂的回归/正则化损失。VLMs的瓶颈实际上在于像素引用和跨数据集相机模糊性,我们通过视觉提示和内在条件增强解决了这些问题。使用更小的模型,我们的方法DepthLM在准确度上超越了大多数先进VLMs超过2倍,首次使VLMs与纯视觉模型相媲美。有趣的是,在训练过程中没有明确强制执行的情况下,使用DepthLM训练的VLMs自然避免了过度平滑,在边界区域的飞点数量远少于纯视觉模型。DepthLM的简洁性还使得单个VLM能够覆盖度量深度之外的多种3D任务。我们的代码和模型将在以下链接发布。
随机最优控制下的强化学习为扩散微调提供了一个极具前景的框架,其中预训练的扩散模型被优化以生成导向奖励偏置分布的路径。尽管这些方法能够在无需访问最优分布显式样本的情况下进行优化,但它们需要在当前微调模型下对轨迹进行训练,这使得它们容易强化那些产生低回报的次优轨迹。为克服这一挑战,我们提出了基于树搜索引导的轨迹感知离散扩散微调框架(TR2-D2),该框架通过树搜索优化奖励引导的离散扩散轨迹,构建用于轨迹感知微调的回放缓冲区。这些缓冲区利用蒙特卡洛树搜索(MCTS)生成,随后用于在随机最优控制目标下微调预训练的离散扩散模型。我们在生物序列扩散模型的单目标和多目标微调上验证了该框架,凸显了TR2-D2在离散序列生成中实现可靠奖励引导微调的整体有效性。
生成准确且经过校准的置信度估计对于在关键任务或面向用户的应用中部署大型语言模型(LLM)至关重要,这仍是一个未解决的挑战。以往的研究常将置信度问题视为激发模型“自我认知”的能力,即LLM判断其自身答案正确性的能力;这种方法隐含地假设模型自身能够获取关于答案正确性的某些特权信息。然而,我们的实验表明,LLM试图预测其自身输出正确性的表现通常并不优于一个无关的LLM。此外,我们假设构建“正确性模型”(CM)的一个关键因素是接触目标模型的历史预测。我们提出了多种方法来注入这种历史正确性信息,从而创建广义正确性模型(GCM)。我们首先展示,GCM可以在多个LLM的正确性数据上进行训练,并学习适用于不同数据集和模型的正确性预测模式。随后,我们将CM作为研究正确性预测能力及其泛化来源的透镜,系统性地控制其训练数据,发现答案的表述方式是正确性的强预测因子。我们进一步探索了在不训练LLM的情况下注入历史信息的替代方法,发现将历史信息作为上下文示例可以有助于提高正确性预测,而事后校准则能提供校准误差的互补性降低。我们基于Qwen3-8B在5个模型家族以及MMLU和TriviaQA数据集上评估了GCM,并在下游的选择性预测任务中进行了测试,发现可靠的LLM置信度估计是一种通过系统性地编码正确性历史而非依赖自我内省获得的、可泛化且与模型无关的技能。
我们推出了ADAM(人类多元档案库),这是一个用于评估和改进多模态大语言模型(MLLMs)在传记推理方面能力的框架。据我们所知,这是首次系统性地考察大语言模型在传记这一关键但尚未充分探索的事实知识维度上的表现。ADAM的核心是AdamDB,一个多语言、多模态的数据集,涵盖了跨越地理、时间和职业的超过400万个人物;而AdamBench则基于布鲁姆分类法,提供了认知结构化的评估,涵盖英语及母语中的六个推理层次。针对模型在描述鲜为人知人物时产生的幻觉问题,我们提出了AdamRAG,一个专为传记情境设计的检索增强生成系统。实验表明,AdamRAG显著提升了开源模型的性能,对闭源模型也有一定帮助,尤其是在低阶推理任务上效果最为明显。人物知名度对准确性有显著影响,而通过人脸图像的多模态输入带来的改进则较小且不够稳定。ADAM首次建立了基于认知、文化及多模态的传记评估基准与框架,推动了多语言、高准确度、抗幻觉的多模态大语言模型的发展。
过去十年间,计算语言学(CL)与自然语言处理(NLP)领域发展迅猛,尤其是随着基于Transformer架构的大规模语言模型(LLMs)的出现。这一转变重塑了研究目标与优先级,从词汇与语义资源转向了语言建模及多模态研究。本研究通过分析意大利CL与NLP领域内领先会议CLiC-it的投稿情况,追踪了该领域的研究趋势。我们将CLiC-it会议前10届(2014年至2024年)的论文集汇编成CLiC-it语料库,对其元数据(包括作者来源、性别、所属机构等)以及论文内容(涵盖多样主题)进行了全面分析。旨在为意大利乃至国际研究界提供关于该领域随时间演变的趋势洞察与关键进展,支持该领域内明智的决策制定与未来研究方向。
视频字幕提供了视频中演员、物体和动作的简洁概览,对于问答系统和事件定位等应用而言,是宝贵的资源。然而,获取人工标注的视频字幕成本高昂,甚至不切实际,尤其是在处理多样化的视频领域时。现有的基于监督数据集训练的模型在跨领域性能评估上面临挑战,这主要归因于依赖于参考标准的评估协议,该协议要求具备真实字幕作为基准。这一假设在评估现实世界中的视频时显得不切实际。为解决这些局限,我们提出了一种无需参考字幕的评估框架,该框架聚焦于事实基础,以确保对字幕质量的准确评估。我们引入了VC-Inspector,一种新颖的字幕质量评估器,它既无需参考字幕又基于事实。利用大型语言模型,我们基于监督数据生成了不同质量的伪字幕,随后用于训练一个多模态模型(即Qwen2.5-VL)作为评估器。我们的方法在VATEX-Eval数据集上展现出与人类判断更优的一致性,超越了现有方法。当将图像视为单帧视频时,该性能也推广至图像字幕数据集Flickr8K-Expert和Flickr8K-CF。总体而言,VC-Inspector为评估视频字幕的事实准确性提供了一个可扩展且通用性强的解决方案,为在多样化视频领域中实现更有效、更客观的评估方法铺平了道路。