每日精选AI研究论文及翻译
尽管强化学习在大语言模型中取得了成功,但其常见失效模式是采样多样性降低——策略会反复生成相似的错误行为。经典熵正则化方法虽能鼓励当前策略下的随机性,但无法显式抑制多轮迭代中反复出现的失败模式。我们提出MEDS框架(记忆增强型动态奖励塑造),将历史行为信号融入奖励设计。通过存储并利用模型的中间表征,我们捕捉过往迭代轨迹的特征,并采用基于密度的聚类方法识别频繁重现的错误模式。被归入更普遍错误簇的迭代轨迹会受到更严厉的惩罚,从而在减少重复错误的同时鼓励更广泛的探索。在五个数据集和三个基础模型上的实验表明,MEDS始终优于现有基线方法,平均性能提升最高达4.13个pass@1点和4.37个pass@128点。基于大语言模型的标注分析和定量多样性指标均显示,MEDS能有效提升采样过程中的行为多样性。
大型语言模型(LLMs)在代码生成中的应用日益广泛,然而量子代码生成的评估目前仍多局限于单一框架内,导致难以区分量子推理能力与框架熟悉度。我们推出QuanBench+统一基准测试集,涵盖Qiskit、PennyLane和Cirq三大框架,包含42个对齐任务,涉及量子算法、门分解和态制备三大类别。 我们通过可执行的功能测试评估模型性能,报告Pass@1和Pass@5指标,并对概率性输出采用基于KL散度的接受准则。此外还研究了基于反馈的修复后的Pass@1表现,即模型可在出现运行时错误或错误答案后修正代码。跨框架评估显示:单次生成的最佳得分在Qiskit达59.5%,Cirq达54.8%,PennyLane达42.9%;而引入反馈修复机制后,最佳成绩分别提升至83.3%、76.2%和66.7%。 这些结果既展现了显著进展,也表明可靠的多框架量子代码生成尚未实现,其表现仍高度依赖特定框架知识。
作为现代机器学习的基础架构,Transformer模型推动了人工智能各领域的显著进展。尽管具有变革性影响,各类Transformer模型始终面临一个共同挑战——注意力汇聚(Attention Sink,AS)现象,即模型会将不成比例的注意力集中在少数特定但信息贫乏的标记上。AS现象不仅增加了模型可解释性的复杂度,显著影响训练与推理的动态过程,还会加剧幻觉生成等问题。近年来,学界已投入大量研究来理解与利用AS现象。然而,目前仍缺乏系统整合AS相关研究并为未来发展方向提供指引的综合性综述。为填补这一空白,我们首次提出围绕三大核心维度构建的AS研究综述:基础应用、机理阐释与策略缓解。本研究通过厘清关键概念、梳理领域演进脉络与发展趋势,为研究者提供重要参考。我们期望该综述能成为权威资源,助力研究者在当前Transformer范式下有效应对AS现象,同时为新一代Transformer的创新突破提供启示。本文相关论文列表详见:https://github.com/ZunhaiSu/Awesome-Attention-Sink。
本文研究人-物交互视频生成任务,该任务旨在基于文本、参考图像、音频与姿态等条件生成高质量的人-物交互视频。该技术对于电子商务展示、短视频制作、交互式娱乐等实际应用中的内容自动化创作具有重要价值。然而,现有方法难以同时满足所有必要条件。我们提出端到端框架OmniShow,专为这一实用而富有挑战性的任务设计,能够协调多模态条件并实现工业级性能。为突破可控性与生成质量之间的权衡,我们提出统一通道条件注入机制以实现高效的图像与姿态条件融合,并设计门控局部上下文注意力模块确保精准的视听同步。针对数据稀缺问题,我们开发了解耦式联合训练策略,通过多阶段训练与模型融合技术高效利用异构子任务数据集。此外,为填补该领域评估空白,我们建立了首个专用综合评估基准HOIVG-Bench。大量实验表明,OmniShow在各种多模态条件设置下均达到最优性能,为新兴的人-物交互视频生成任务树立了坚实基准。
近期自回归变换器的研究进展显示出生成艺术家级别网格模型的巨大潜力。然而,现有方法采用的标记排序策略通常难以达到专业艺术家的标准——基于坐标的排序会产生低效的长序列,而基于分块的启发式方法会破坏高质量建模所必需的连续边流和结构规整性。为突破这些局限,我们提出条带标记化(SATO)框架,其灵感来源于三角形条带的标记排序策略。通过将序列构建为显式编码UV边界的面连接链,我们的方法天然保留了艺术家创作网格特有的有序边流与语义布局。该方案的关键优势在于其统一表征能力,使得同一标记序列可解码为三角形或四边形网格。这种灵活性实现了对两类数据的联合训练:大规模三角数据提供基础结构先验,而高质量四边数据则增强输出的几何规整性。大量实验表明,SATO在几何质量、结构连贯性和UV分割方面均优于现有方法。
统一多模态模型在融合视觉理解与生成能力时面临一个根本性挑战:视觉生成(尤其是视频生成)的计算成本远高于理解任务。这种不平衡性促使我们颠覆传统范式:不再以理解为中心扩展多语言模型(MLLM)来支持生成,而是提出Uni-ViGU框架——通过扩展视频生成器作为基础来统一视频生成与理解。我们引入统一流匹配方法,在单一流程中实现对视频的连续流匹配与文本的离散流匹配,从而达成连贯的多模态生成。进一步提出基于模态驱动的混合专家框架,通过为Transformer模块添加轻量级文本生成层,同时保留生成先验知识。为将生成知识迁移至理解任务,我们设计包含两个阶段的双向训练机制:知识召回阶段通过重构输入提示词来利用已学习的文本-视频对应关系,能力精炼阶段则通过细粒度描述文本微调以建立判别性共享表征。实验表明,Uni-ViGU在视频生成与理解任务上均取得具有竞争力的性能,验证了以生成为核心的架构是实现统一多模态智能的可扩展路径。项目页面与代码:https://fr0zencrane.github.io/uni-vigu-page/。
近年来,多模态模型的快速发展推动了音频理解、生成与编辑技术的迅猛进步。然而,这些功能通常由专用模型分别实现,能够无缝整合三大任务的统一框架开发仍显不足。尽管已有先驱性工作尝试统一音频理解与生成功能,但其应用往往局限于特定领域。为此,我们提出Audio-Omni——首个在通用音频、音乐与语音领域实现生成与编辑统一,并集成多模态理解能力的端到端框架。该架构创新性地融合了用于高层推理的冻结式多模态大语言模型与可实现高保真合成的可训练扩散变换器。为克服音频编辑领域关键的数据稀缺问题,我们构建了AudioEdit数据集,包含超过百万组精心策划的编辑配对样本。大量实验表明,Audio-Omni在多项基准测试中均达到最先进性能,不仅超越现有统一方法,更在部分任务上媲美甚至优于专业模型。除核心功能外,该框架还展现出知识增强推理生成、上下文生成、零样本跨语言音频生成控制等卓越的衍生能力,为构建通用音频生成智能体指明了方向。相关代码、模型及数据集将公开发布于https://zeyuet.github.io/Audio-Omni。
统一多模态模型(UMMs)旨在融合大语言模型(LLMs)的推理能力与视觉模型的生成能力。然而在实际应用中,这种协同效应仍难以实现:UMMs未能将类LLM的推理能力迁移至图像合成任务,且表现出割裂的响应行为。我们将此现象称为伪统一。诊断其内在成因至关重要,但现有探测方法要么缺乏模型内部洞察力,要么忽略提示与响应的关联性。为突破这些局限,我们提出一种信息论探测框架,可联合分析UMMs如何编码输入并生成输出。通过对十个代表性UMMs的实验,该框架揭示伪统一源于双重分化:(一)模态非对称编码,即视觉与语言遵循不同的熵变化轨迹;(二)模式分裂响应,表现为文本生成呈现高熵创造性,而图像合成强制保持低熵保真度。唯有通过上下文预测等方式实现双向统一的模型,才能达成更真实的统一,即使参数更少也能实现更强的基于推理的文生图性能。本研究首次从模型内部视角探究统一机制,证明真正的多模态协同需要信息流的一致性,而非仅是参数共享。
代码智能体正快速发展,但其调试难度与日俱增。当框架在复杂任务中编排并行工具调用与多阶段工作流时,智能体的状态转换和错误传播变得难以观测。在这些运行过程中,早期的失误可能使智能体陷入无效循环,甚至引发根本性错误,形成难以察觉的错误链,导致开发者无法及时判断智能体何时偏离轨道及其原因。现有智能体追踪分析要么局限于简单交互,要么依赖小规模人工检查,这限制了其在真实编程工作流中的可扩展性和实用性。我们提出CodeTracer——一种通过动态解析器解析异构运行产物、将完整状态转换历史重建为具有持久化内存的层级化追踪树,并执行故障起始点定位以精准确认故障源头及其下游链的追踪架构。为进行系统化评估,我们从四大主流代码智能体框架在多样化编程任务(如缺陷修复、代码重构、终端交互)上执行的大规模轨迹中构建了CodeTraceBench数据集,该数据集包含阶段级和步骤级的故障定位监督信号。实验表明,CodeTracer显著优于直接提示法和轻量级基线方法,且在其诊断信号的重放过程中,能在匹配预算下持续恢复原本失败的运行。我们的代码与数据已公开。
当前,大型语言模型智能体在软件工程、深度研究、图形用户界面自动化等众多应用领域表现卓越,而近期的智能体框架与模型正日益将这些能力整合为统一系统。然而,大多数评估仍孤立测试这些能力,这导致对需要智能体融合多种能力的多样化应用场景存在评估空白。我们推出CocoaBench——一个面向统一数字智能体的基准测试,其通过人工设计的长期任务构建,要求智能体灵活组合视觉、搜索与编程能力。所有任务仅通过指令说明和基于最终输出的自动评估函数来定义,从而实现对不同智能体架构的可靠、可扩展评估。我们还提出CocoaAgent——一个轻量级共享框架,用于在不同模型骨干间进行受控比较。实验表明,当前智能体在CocoaBench上的可靠性仍显不足,表现最佳系统的成功率仅为45.1%。进一步分析指出,智能体在推理规划、工具使用执行及视觉基础理解等方面仍存在显著提升空间。
我们推出新一代音频语言大模型Audio Flamingo Next(AF-Next),作为Audio Flamingo系列中功能最强大的版本,旨在提升对语音、环境音与音乐的理解与推理能力。相较于Audio Flamingo 3,AF-Next具备以下突破:(i) 构建了更强大的基础音频语言模型,显著提升多类音频理解任务的准确率;(ii) 提出可扩展策略,构建超越现有学术基准的大规模音频理解与推理数据集;(iii) 支持长达30分钟的复杂长音频输入;(iv) 创新提出时序音频思维链推理范式,将中间推理步骤显式关联至长音频时间戳,实现细粒度时序对齐并增强可解释性。为实现这些能力,我们首先系统分析了Audio Flamingo 3的音频理解与推理短板,进而构建并扩展了总时长超100万小时的新大规模数据集,扩充了原有的AudioSkills-XL、LongAudio-XL、AF-Think与AF-Chat数据集。AF-Next采用分阶段课程学习策略,涵盖预训练、中期训练与后训练三个阶段。在涵盖20项音频理解与推理基准(包括具有挑战性的长音频任务)的大规模实验中,AF-Next以显著优势超越同类规模开源模型,并与参数量更大的开源权重模型及闭源模型保持强劲竞争力,部分任务甚至实现反超。除基准测试表现外,AF-Next展现出强大的实际应用价值,能良好迁移至未见任务,凸显其鲁棒性与泛化能力。我们同步开源全部数据、代码与方法,并发布AF-Next的3个变体模型:AF-Next-Instruct、AF-Next-Think与AF-Next-Captioner。
在线策略强化学习已成为大语言模型对齐推理的主流范式,但其稀疏的结果级奖励使得令牌级信用分配极具挑战性。在线策略蒸馏(OPD)通过引入教师模型的稠密令牌级KL监督缓解了这一问题,但通常将这种监督均匀应用于所有推演轨迹,忽略了信号质量的根本差异。我们提出信号校准的在线策略蒸馏增强框架(SCOPE),该双路径自适应训练框架根据推演轨迹的正确性将其路由至两个互补的监督路径:对于错误轨迹,SCOPE执行基于教师困惑度加权的KL蒸馏,优先处理教师模型展现出真实纠错能力的实例,同时降低不可靠指导的权重;对于正确轨迹,则采用基于学生困惑度加权的最大似然估计,将强化重点集中在能力边界上的低置信度样本,而非过度强化已掌握样本。两条路径均采用组级归一化技术自适应校准权重分布,以应对不同提示间固有的难度差异。在六个推理基准上的大量实验表明,SCOPE在Avg@32和Pass@32指标上分别实现了11.42%和7.30%的平均相对提升,显著优于现有基线方法。
扩散语言模型虽有望实现并行生成,但在质量上仍落后于自回归模型。我们将此差距归因于内省一致性的缺失:自回归模型能与其自身生成内容保持一致,而扩散语言模型往往无法做到。我们定义了内省接受率这一指标,用于衡量模型是否接受其先前生成的标记。这揭示了自回归训练的结构性优势:因果掩码和逻辑偏移隐式地强化了内省一致性。基于此发现,我们提出内省扩散语言模型(I-DLM),该范式在保留扩散式并行解码的同时,继承了自回归训练的内省一致性。I-DLM采用新颖的内省跨步解码算法,使模型能在同一次前向传播中验证已生成标记的同时推进新标记生成。从系统视角出发,我们在自回归优化基础上构建I-DLM推理引擎,并通过静态批调度器进一步定制。据我们所知,I-DLM是首个在质量上媲美同规模自回归模型、同时在15项基准测试中超越现有扩散语言模型的方案,其模型质量与实际服务效率均表现卓越。该模型在AIME-24上达到69.6分,在LiveCodeBench-v6上获得45.7分,分别较LLaDA-2.1-mini(16B)高出26分和15分以上。除质量优势外,I-DLM专为日益增长的高并发服务需求设计,其吞吐量较现有最优扩散语言模型提升约3倍。
后训练数据在塑造大语言模型能力方面具有关键作用,但数据集常被视作孤立产物,忽略了其演进过程中的系统性关联。为解析这些复杂关系,我们将数据谱系概念引入LLM生态系统,并提出一种自动化多智能体框架来重构数据集发展的演化图谱。通过大规模谱系分析,我们揭示了领域特定的结构模式,例如数学导向数据集中的纵向精细化与通用领域语料库中的横向聚合化。更重要的是,我们发现了普遍存在的系统性问题,包括由隐式数据集交叉引发的结构冗余,以及基准污染沿谱系路径的传播现象。为验证谱系分析在数据构建中的实用价值,我们利用重构的谱系图创建了面向多样性的谱系感知数据集。通过将指令采样锚定于上游根源,该方法有效缓解了下游同质化和隐性冗余问题,生成更具多样性的后训练语料。我们进一步证明,针对大规模数据生态系统,以谱系为核心的分析可成为样本级数据集对比的高效稳健拓扑替代方案。通过将数据构建建立在显性谱系结构之上,本研究推动后训练数据管理迈向更系统化、可控化的新范式。
尽管经验回放——即存储训练轨迹并在训练过程中多次重复使用的做法——是通用强化学习的基础技术,但在大语言模型后训练领域却鲜有探索,这主要源于业界普遍认为新鲜的同策略数据对实现高性能至关重要。本研究对这一假设提出挑战。我们系统性地研究了回放缓冲区在LLM后训练中的应用,将其最优设计形式化为陈旧性导致的方差、样本多样性以及生成过程的高计算成本三者之间的权衡。研究结果表明,当生成成本高昂时,严格的同策略采样并非最优选择。通过实证分析,我们证明精心设计的回放缓冲区能大幅降低推理计算量,同时不会降低模型性能(在某些情况下甚至能提升性能),并保持策略熵的稳定性。
随着DeepSeek-R1的问世,我们见证了大型语言模型推理能力的显著进步。然而,这一进展很大程度上得益于互联网上大量问答对的数据支持,但这类数据在规模上存在局限且主要集中在数学等领域,正逐渐成为发展的瓶颈。相比之下,物理学等其他科学领域缺乏大规模问答数据集来有效训练具备推理能力的模型。本研究证明,物理模拟器可作为训练物理推理LLM的强大替代监督源。我们通过在物理引擎中生成随机场景,基于模拟交互创建合成问答对,并利用强化学习在此合成数据上训练LLM。我们的模型展现出对真实世界物理基准测试的零样本模拟到现实迁移能力:例如,仅使用合成模拟数据训练即可使不同规模的模型在IPhO(国际物理奥林匹克竞赛)问题上的表现提升5-10个百分点。这些结果表明物理模拟器能够作为可扩展的数据生成器,使LLM突破互联网规模问答数据的限制,获得深层次的物理推理能力。代码地址:https://sim2reason.github.io/。
视频扩散模型在生成高质量视频方面取得了显著进展。然而,这些模型难以准确呈现现实世界视频中多个事件的时序连续性,且缺乏显式机制来控制语义概念的出现时机、持续时长以及多个事件的先后顺序。这种控制在电影级视频合成中尤为重要——连贯的叙事依赖于事件间精确的时间点控制、持续时长和过渡效果。当使用单段式提示词描述复杂事件序列时,模型常出现语义纠缠现象:本应出现在不同时间点的概念相互渗透,导致文本-视频对齐效果不佳。为解决这些局限,我们提出提示词接力(Prompt Relay),一种无需修改模型架构、不增加计算开销的即插即用推理方法,可实现多事件视频生成的细粒度时序控制。该方法通过在交叉注意力机制中引入惩罚项,使每个时间段仅关注其指定的提示词,从而让模型一次只呈现一个语义概念,有效提升时序提示对齐度、减少语义干扰并增强视觉质量。
我们研究针对长周期智能体任务(如智能搜索与深度研究)的并行测试时扩展方法,该方法通过并行生成多个执行轨迹并将其聚合为最终响应。虽然这种扩展在思维链推理中已被证明有效,但智能体任务面临独特挑战:执行轨迹具有长周期、多轮次和工具增强特性,且输出常呈开放型。仅聚合最终答案会丢弃轨迹中的丰富信息,而直接拼接所有轨迹又会超出模型的上下文窗口。为此,我们提出AggAgent聚合智能体,将并行轨迹视为环境,为其配备轻量级工具以检查候选方案并在轨迹间搜索,从而按需导航与合成信息。在六个基准测试和三类模型系列(GLM-4.7、Qwen3.5、MiniMax-M2.5)上的实验表明,AggAgent优于所有现有聚合方法——在深度研究任务上平均绝对提升达5.3%,两项任务最高提升10.3%,且仅需单次智能体执行的有限开销。我们的研究证实,智能体聚合是实现并行测试时扩展的高效经济方案。
针对大语言模型(RL)的强化学习日益依赖稀疏的结果级奖励,但如何确定长轨迹中哪些行为导致最终结果仍是一大难题。这一信用分配(CA)问题体现在两种场景中:推理式强化学习需在单个思维链生成过程(500-30K+以上词元)中跨词元和步骤分配信用;智能体式强化学习则因多轮环境交互引入随机转移、部分可观测性及100+轮次(100K-1M词元)的决策跨度,使得回合级信用信息逐渐失效。 我们系统梳理了2024年至2026年初发表的47种信用分配方法(41种核心方法,6种相邻支撑技术),通过分配粒度(词元/片段/步骤/轮次/多智能体)与方法论(蒙特卡洛/时序差分/基于模型/博弈论/信息论)两个维度构建分类体系。除综述本身外,本研究贡献了三项可复用资源:(1)包含分类标签、基线族与证据等级的结构化机器可读文献库;(2)经已综述文献验证、能识别系统性方法缺口的信用分配论文报告清单;(3)涵盖任务族、元数据要求与可控分叉任务的基准协议规范,附方法选择决策树。 综合分析表明,从推理式到智能体式强化学习的转变正重塑信用分配格局:推理式信用分配围绕过程奖励模型与无评论者群体比较趋于成熟,而智能体式信用分配催生的新方法——事后反事实分析、特权非对称评论者、轮次级MDP重构——在推理式强化学习中尚无直接先例。
在智能体环境中部署的大语言模型(LLM)需具备跨任务实例的多维能力,其中能力被定义为在轨迹中执行一个或多个对成功解决环境内任务子集至关重要的操作。现有方法大多依赖与模型在目标环境中实际能力缺陷不匹配的合成训练数据,或直接在目标环境上进行训练——这要求模型隐式学习跨任务能力。我们提出TRACE(将重复性智能体失败转化为能力导向的训练环境),这是一种面向特定环境的智能体自我提升端到端系统。TRACE通过对比成功与失败轨迹来自动识别缺失能力,为每种能力合成具有能力运用奖励机制的目标训练环境,并利用强化学习在各合成环境中训练LoRA适配器,在推理阶段路由至相应适配器。实验表明,TRACE能泛化至不同环境:在τ²-bench(客服场景)上较基线智能体提升14.1个点,在ToolSandbox(工具调用)上获得7次满分,分别以7.4个点和4次满分的优势超越最强基线。在同等轨迹采样次数下,TRACE展现出更高效的扩展性,在τ²-bench上以9.2和7.4个点的优势超越GRPO与GEPA基线。
基于多模态大语言模型(MLLMs)的移动端图形界面代理能够在移动设备上执行复杂任务。尽管取得这些进展,现有系统大多仍以任务成功率或效率为优化目标,忽视了用户的隐私个性化需求。本文研究了这一常被忽视的代理个性化问题,发现个性化会导致执行轨迹出现系统性结构异质性。例如,隐私优先型用户往往倾向于采取防护性操作(如拒绝权限、退出登录、最小化信息暴露),其执行轨迹与效用优先型用户存在逻辑差异。此类变长且结构相异的轨迹会使标准偏好优化方法稳定性下降、信息量减少。为解决该问题,我们提出轨迹诱导偏好优化(TIPO)方法:通过偏好强度加权强化关键隐私步骤,利用填充门控抑制对齐噪声。在隐私偏好数据集上的实验表明,TIPO在保持强任务执行能力的同时显著提升了人格对齐度与区分度,以65.60%的任务成功率、46.22%的合规率及66.67%的人格区分度优于现有优化方法,在各种图形界面任务中均表现优异。代码与数据集将发布于https://github.com/Zhixin-L/TIPO。
推测解码(SD)已成为加速大语言模型(LLM)推理的关键技术。与确定性系统优化不同,SD性能本质上具有数据依赖性,这意味着需要多样且具代表性的工作负载才能准确衡量其效能。现有基准测试存在任务多样性有限、对吞吐量导向评估支持不足,以及依赖无法反映生产环境的高层实现等问题。为此,我们推出SPEED-Bench——一个旨在跨多样化语义域和实际服务场景标准化SD评估的综合测试套件。该套件提供经精心筛选的定性数据分割,其样本选择优先考虑语义多样性;同时包含吞吐量数据分割,支持从延迟敏感的低批处理设置到吞吐量导向的高负载场景等多并发条件下的加速比评估。通过与vLLM、TensorRT-LLM等生产级引擎集成,SPEED-Bench可帮助从业者分析常被其他基准测试掩盖的系统行为。我们通过量化合成输入对实际吞吐量的高估现象、识别批大小依赖的最佳草案长度与低多样性数据偏差,以及分析前沿草案模型中词汇表剪枝的注意事项来凸显这一价值。我们开源SPEED-Bench,旨在为SD算法的实际比较建立统一评估标准。
当代大型语言模型(LLMs)在数学、物理等专业领域已展现出卓越的推理能力,然而这些推理技能向更广泛通用场景的迁移能力——即通用推理——仍待深入探索。与领域特定推理不同,通用推理对专家知识依赖较低,但依然面临复杂约束条件、嵌套逻辑分支和语义干扰等严峻挑战。为填补这一研究空白,我们推出General365基准测试,专门用于评估LLMs的通用推理能力。通过将背景知识限定在K-12水平,该基准明确实现了推理能力与专业知识的解耦。该数据集包含八大类别的365道种子问题与1095道变体问题,兼具高难度与多样性。对26个主流LLMs的评估表明,即使最优模型准确率也仅达62.8%,与LLMs在数理基准测试中接近完美的表现形成鲜明对比。这些结果揭示当前LLMs的推理能力具有显著的领域依赖性,在更广泛的应用场景中仍有巨大提升空间。我们期待General365能推动LLMs推理能力突破领域限制,向具有鲁棒性的通用现实场景迈进。代码、数据集及排行榜:https://general365.github.io
近期掩码扩散语言模型(MDLM)的发展使其与自回归语言模型的质量差距逐渐缩小,但由于生成过程需借助大型Transformer进行多次全序列去噪迭代,且无法像自回归解码那样受益于KV缓存,其采样成本依然高昂。本研究利用扩散框架的灵活性,探索模型调度策略——在部分去噪步骤中使用小型MDLM替代完整模型。基于OpenWebText和LM1B数据集训练的模型实验表明,相较于中间阶段,扩散过程的早期与晚期步骤对此类替换具有显著鲁棒性。在无条件生成与前缀条件生成任务中,该策略能以仅小幅增加生成困惑度为代价,实现高达17%的浮点运算量削减,同时保持样本多样性。我们通过基于时间步的损失函数分析、大小模型间KL散度评估以及粗粒度步骤段的穷举搜索,验证了扩散轨迹中段具有跨数据集一致的最高敏感性。这些发现表明,无需改变模型架构的简易调度规则即可显著加速MDLM采样,同时基本保持生成质量。
我们提出连续对抗流模型,这是一种采用对抗目标训练的连续时间流模型。与使用固定均方误差准则的流匹配方法不同,我们的方法引入可学习的判别器来指导训练。这种目标函数的改变诱导出不同的广义分布,实验表明其生成的样本与目标数据分布具有更好的对齐效果。我们的方法主要针对现有流匹配模型的后训练优化提出,同时也支持从零开始训练模型。在ImageNet 256px生成任务中,后训练显著提升了无引导生成质量:潜在空间SiT模型的FID从8.26降至3.63,像素空间JiT模型的FID从7.17降至3.57。在引导生成方面也取得进步,SiT的FID从2.06降至1.53,JiT从1.86降至1.80。我们进一步在文生图任务上评估该方法,在GenEval和DPG基准测试中均取得了提升。
幼儿在理解物理世界方面展现出早期能力,能够对深度、运动、物体连贯性、相互作用等物理场景理解的诸多方面进行预估。儿童是数据高效且灵活的认知系统,即便在训练数据极为有限的情况下仍能构建认知能力,并可泛化至无数未经训练的任务——这对当今最先进的人工智能系统仍是重大挑战。本文提出解释这些能力的新计算假说:零样本视觉世界模型(ZWM)。该模型基于三大原则:通过时间因子解耦外观与动态的稀疏预测器;基于近似因果推理的零样本估计;通过推理组合构建复杂能力。研究表明,ZWM仅需从单个儿童的第一视角经验中学习,即可快速在多项物理理解基准测试中生成认知能力。该模型还能复现儿童发展的行为特征,并构建类脑内部表征。本研究为从人类规模数据中实现高效灵活学习提供了蓝图,既推进了对儿童早期物理理解的计算理论阐释,也为构建数据高效的人工智能系统开辟了新路径。
近年来,统一多模态模型(UMMs)的研究进展催生了多种能够理解、生成和编辑视觉与文本模态的架构。然而,由于模型架构的多样性以及训练范式和实现细节的异构性,构建统一的UMM框架仍面临挑战。本文提出TorchUMM——首个支持跨不同UMM骨干网络、任务和数据集进行全面评估、分析及训练后处理的统一代码库。该平台涵盖多种规模与设计范式的模型,其基准测试包含多模态理解、生成与编辑三大核心任务维度,并整合经典与新兴数据集以评估模型的感知、推理、组合性及指令遵循能力。通过提供统一接口和标准化评估协议,TorchUMM实现了异构模型间的公平可复现比较,有助于深入理解其优势与局限,进而推动更强大的统一多模态系统发展。代码已开源:https://github.com/AIFrontierLab/TorchUMM。
理解与预测运动是视觉智能的基础能力。尽管现代视频模型已展现出对场景动态的出色理解能力,但通过完整视频合成来探索多种可能未来仍存在效率瓶颈。我们通过直接对运动嵌入空间进行操作,实现了数量级效率提升的场景动态建模——该嵌入空间是从追踪模型获取的大规模轨迹数据中学习得到的。这种方法能够高效生成长时间、符合文本指令或空间触控目标的逼真运动轨迹。为实现这一目标,我们首先学习具有64倍时间压缩率的高度压缩运动嵌入空间,在此空间内训练条件流匹配模型,使其能根据任务描述生成运动潜变量。实验表明,该方法生成的运动分布质量超越了当前最先进的视频模型与专用任务型方法。
Bielik v3 PL系列(涵盖70亿和110亿参数版本)的开发,标志着语言特异性大语言模型优化领域的重要里程碑。尽管通用模型常展现出卓越的多语言能力,但其普遍存在一个根本性的架构低效问题:使用通用分词器。这类旨在覆盖广泛语言的分词器往往难以捕捉波兰语等特定语言的形态学特征,导致生育率比升高、推理成本增加以及有效上下文窗口受限。本报告详述了Bielik v3模型从基于Mistral的通用分词方案转向专用波兰语优化词表的转型过程,深入探讨了基于FOCUS的嵌入初始化策略、多阶段预训练课程设计,以及后续包含监督微调、直接偏好优化和采用可验证奖励的群体相对策略优化强化学习的对齐训练流程。
尽管大语言模型在复杂医疗应用中展现出潜力,但其发展受限于高质量推理数据的稀缺性。为解决这一问题,现有方法通常通过监督微调从大型专有模型中提炼思维链推理轨迹,继而进行强化学习。这些方法在罕见病等代表性不足的领域改进有限,且生成复杂推理链的成本高昂。为高效提升医疗推理能力,我们提出MedSSR——一种融合医学知识增强的数据合成与半监督强化学习框架。该框架首先利用罕见病知识合成分布可控的推理问题,随后通过策略模型自身生成高质量伪标签,形成由内而外的两阶段训练范式:先在伪标注合成数据上进行自监督强化学习,再基于人工标注的真实数据开展监督强化学习。MedSSR无需依赖高成本的轨迹提炼即可高效扩展模型训练。在Qwen和Llama上的大量实验表明,本方法在十项医疗基准测试中均超越现有方案,在罕见病任务上最高可获得+5.93%的性能提升。代码已开源:https://github.com/tdlhl/MedSSR。
加速科学发现需要在投入资源进行高成本物理验证之前,就能识别哪些实验可能产生最佳结果。虽然现有基准测试主要评估大语言模型的科学知识与推理能力,但其预测实验结果的能力——这一AI可能显著超越人类的领域——仍待深入探索。我们推出SciPredict基准测试,包含从物理学、生物学和化学三大领域33个专业子方向的最新实证研究中提取的405项任务。该基准旨在回答两个关键问题:(a)大语言模型能否以足够精度预测科学实验结果?(b)此类预测能否可靠应用于科研流程?评估结果显示两者均存在根本性局限:模型准确率仅为14-26%,人类专家表现约20%。尽管部分前沿模型超越人类水平,但其准确率仍远未达到可指导实验的可靠标准。更关键的是,模型在有限性能范围内仍无法区分预测可靠性——无论其置信度高低或是否判定结果可无需实验预测,其识别可靠预测的准确率仅约20%。与之形成鲜明对比的是,人类专家展现出强大的校准能力:当他们判定某结果无需实验即可预测时,准确率从约5%提升至约80%。SciPredict建立了一个严谨框架,证明要实现实验科学中的超人类表现,不仅需要更精准的预测,更需要具备预测可靠性的判断能力。为保障可复现性,所有数据与代码已开源:https://github.com/scaleapi/scipredict
先前在自主软件工程(SWE)领域具有代表性的ReAct式方法通常缺乏进行深度分析和处理复杂边缘情况所需的显式系统2推理能力。尽管近期推理模型展现了扩展思维链(CoT)的潜力,但将其应用于多轮次SWE任务时会产生根本性矛盾:保留完整推理历史会导致上下文爆炸和"中间迷失"效应,而丢弃历史则会迫使智能体在每个步骤进行冗余重推理。为解决这些挑战,我们提出SWE-AGILE——一种新型软件智能体框架,旨在弥合推理深度、效率与上下文约束之间的鸿沟。该框架引入动态推理上下文策略,通过维护详细推理的"滑动窗口"确保即时连续性以避免冗余分析,同时将历史推理内容压缩为精炼的推理摘要。实证表明,SWE-AGILE仅使用2.2千条轨迹和896项任务,就在SWE-Bench-Verified上为7B-8B参数模型设立了新标杆。代码已开源:https://github.com/KDEGroup/SWE-AGILE。
近期,基于可验证奖励的规模化强化学习(RLVR)已成为显著提升大语言模型能力的高效训练范式。该范式需引导模型进行广泛探索与学习,导致计算开销巨大并成为关键挑战。为减少训练步数,已有研究采用模型参数的线性外推方法。然而,RLVR训练过程中模型参数更新的动态机制尚未得到充分认知。为深入探究LLMs在RLVR训练中的演化规律,我们通过实证实验发现:模型的秩-1子空间并不呈线性演化,且在LoRA训练中其相对于原始参数的主导作用会进一步放大。基于上述发现,我们提出低秩轨迹非线性外推框架NExt,通过对低秩参数轨迹进行非线性建模与外推。具体而言,我们首先采用LoRA训练模型,并在多个训练步骤提取参数差异的秩-1子空间用于后续非线性外推;随后利用该子空间训练预测器,建模RLVR过程中参数更新轨迹,通过“预测-扩展”流程实现模型参数外推,最终达成RLVR加速目标。为深入解析NExt机制,我们开展系统性实验验证了方法的有效性与鲁棒性。该方法在保持与多种RLVR算法及任务兼容性的同时,可降低约37.5%的计算开销。代码已开源于https://github.com/RUCAIBox/NExt。
随着大语言模型(LLM)成为对话系统的核心引擎,其推断对话伙伴意图与状态(即形成并运用心理理论,ToM)的能力,对于与潜在对抗性伙伴进行安全交互变得愈发关键。我们提出一项新颖的隐私主题ToM挑战——信念导向型心理理论(ToM-SB),要求防御者扮演双面特工,在共享信息环境中引导具有部分先验知识的攻击者形成特定信念。要成功实现ToM-SB,防御者需主动构建对攻击者的心理模型,最终诱使攻击者误认为已成功获取敏感信息。研究发现,Gemini3-Pro和GPT-5.4等前沿模型在ToM-SB任务中表现不佳——即使采用ToM提示引导其推理攻击者信念,仍难以在攻击者具备部分先验知识的困难场景中成功迷惑对手。为弥补这一差距,我们通过强化学习训练AI双面特工模型,同时测试迷惑效果与ToM奖励机制。值得注意的是,我们发现ToM能力与攻击者迷惑效果存在双向涌现关系:仅奖励迷惑成功即可提升ToM能力,而仅奖励ToM表现也能增强迷惑效果。通过对四种不同强度攻击者、六种防御方法开展分布内与分布外(OOD)评估,我们证实ToM能力提升与攻击者迷惑效果呈显著正相关,表明信念建模是ToM-SB成功的关键驱动力。结合ToM与迷惑双重奖励的AI双面特工实现了最优性能,在困难场景下的表现超越采用ToM提示的Gemini3-Pro和GPT-5.4。研究还表明,ToM-SB任务与AI双面特工策略可扩展至更强攻击者,展现了向OOD场景的泛化能力及任务的可升级性。
大型语言模型正日益广泛应用于多轮对话场景,如教学辅导、技术支持与心理疏导等,其可靠性取决于能否在长对话中保持角色、人设与目标的一致性。当LLM被用于生成训练和评估所需的合成对话时,这一要求尤为关键,因为LLM与LLM的对话会累积身份相关故障,例如人设漂移、角色混淆以及“回声效应”(即一方逐渐模仿对话伙伴的言行)。我们提出SPASM(基于稳定人设的智能体多轮对话生成框架),这一模块化框架以稳定性为核心,将对话仿真分解为三个步骤:(i)通过模式采样、合理性验证及自然语言人设构建实现人设创建;(ii)客户端-应答端对话生成;(iii)基于连贯性判断的终止检测。为在不改变模型权重的前提下提升长对话稳定性,我们提出自我中心语境投射技术:对话历史以视角无关的形式存储,并在生成对话前确定性地投射至每个智能体的自我中心视角。基于三种LLM骨干模型(GPT-4o-mini、DeepSeek-V3.2、Qwen-Plus)和九组客户端-应答端配对,我们构建了包含4,500种人设和45,000段对话的数据集(每组配对包含500种人设×10段对话)。消融实验表明,自我中心语境投射技术显著降低了人设漂移,并经人工验证完全消除了回声效应;嵌入分析不仅还原了人设结构,还揭示了应答端主导的强交互几何模式。代码已开源:https://github.com/lhannnn/SPASM。
随着生成模型能够快速创建高保真图像,社会对错误信息和真实性的担忧日益加剧。一种有效的解决方案是多比特图像水印技术,该方法将多比特信息嵌入图像,使得验证者能够检测图像是否由特定生成器创建,并通过解码嵌入信息进一步追溯来源。现有方法在容量、对常见图像失真的鲁棒性及理论依据方面存在不足。为解决这些局限,我们提出ADD(加性、点积、解码)水印方法,其包含两个阶段:学习与多比特信息线性组合的水印并叠加至图像,以及通过水印图像与习得水印的内积进行解码。在标准MS-COCO基准测试中,针对48比特水印这一挑战性任务,ADD实现了100%的解码准确率,在多种图像失真条件下性能下降最多不超过2%,远低于现有最优方法14%的平均降幅。此外,ADD显著提升了计算效率,嵌入速度比现有最快方法提升2倍,解码速度提升7.4倍。我们还通过理论分析揭示了习得水印及其对应解码规则的有效性机制。
近期,视觉语言模型(VLM)的进展已彻底革新通用视觉理解领域。然而在食品领域,其应用仍受限于依赖粗粒度分类、单视角图像及不准确元数据的基准测试。为弥补这一空白,我们推出DiningBench——一个分层多视角基准测试框架,旨在通过三个认知复杂度层级评估VLM性能:细粒度分类、营养估算和视觉问答。与既有数据集不同,DiningBench包含3,021道独特菜品,每道菜品平均配备5.27张图像,整合了来自相同菜单的细粒度“困难负样本”及经过严格验证的营养数据。我们对29个前沿开源与商业模型进行了全面评估,实验表明:当前VLM虽在通用推理方面表现优异,但在细粒度视觉辨别和精准营养推理方面存在显著不足。此外,我们系统探究了多视角输入与思维链推理的影响,归纳出五类主要失败模式。DiningBench将作为推动下一代食品领域VLM研究的挑战性测试平台,所有代码已发布于https://github.com/meituan/DiningBench。
诸如知识图谱之类的结构化记忆表征是自主智能体及其他长时运行系统的核心。然而现有方法大多将时间建模为离散元数据——或按时效性排序(导致永久性旧知识被淹没)、或直接覆盖过时事实、或在每次信息录入时需调用高成本的大语言模型,均无法区分持久性事实与演变性事实。为此,我们提出RoMem:一种即插即用的时序知识图谱模块,适用于智能体记忆等结构化记忆系统。该模块通过预训练的语义速度门控,将关系文本嵌入映射为易变性分数,从数据中学习到演变关系(如"某国总统")应快速更新,而持久关系(如"出生日期")应保持稳定。结合连续相位旋转技术,实现了几何遮蔽机制:过时事实在复数向量空间中被旋转至相位失配状态,使得时效正确的陈述自然优于矛盾陈述而无需物理删除。在时序知识图谱补全任务中,RoMem在ICEW05-15数据集上达到最优效果(MRR 72.6)。应用于智能体记忆时,其在时序推理任务(MultiTQ)上实现MRR与答案准确率2-3倍提升,主导混合基准测试(LoCoMo),静态记忆保持零衰减(DMR-MSC),并能零样本泛化至未见过的金融领域(FinTMMBench)。
视觉-语言模型(VLMs)在多模态推理任务中展现出卓越性能,但在物体计数等基础感知能力上仍存在明显缺陷。现有评估多聚焦于最终输出结果,难以揭示模型内部失效的具体环节。本研究通过行为分析与机制解析相结合的方式,对VLM的计数行为展开实证研究。我们提出COUNTINGTRICKS评估基准——一套基于简单几何图形的受控计数测试集,用于揭示模型在不同图像分块布局和对抗性提示条件下的脆弱性。通过注意力分析与组件探测,我们发现计数相关的视觉证据在模态投影阶段最强,但在后续语言层中显著衰减,导致模型更易受文本先验影响。基于此发现,我们进一步评估了模态注意力共享(MAS)这一轻量级干预方法,该方法通过在答案生成阶段强制保留最低限度的视觉注意力预算。实验结果表明,VLM的计数失败不仅源于视觉感知局限,更与语言推理阶段对视觉证据的利用不足密切相关。代码与数据集将在https://github.com/leduy99/-CVPRW26-Modality-Attention-Share发布。
精确的三维人体关键点定位是实现机器人与用户自然安全物理交互的关键技术。传统三维人体关键点估计方法主要关注相对于根节点的整体重建质量。然而在实际人机交互场景中,机器人更需关注以自我中心相机三维坐标系下任务相关身体部位的精确度量级空间定位。我们提出TAIHRI——首个专为近距离人机交互感知设计的视觉语言模型,能够理解用户运动指令并将机器人注意力引导至最具任务相关性的关键点。通过将三维关键点量化为有限交互空间,TAIHRI借助下一词元预测的二维关键点推理机制,精确标定关键身体部位的三维空间坐标,并可无缝适配自然语言控制或全局空间人体网格重建等下游任务。在自我中心交互基准测试上的实验表明,TAIHRI对任务关键身体部位实现了卓越的估计精度。我们相信TAIHRI为具身人机交互领域开辟了新的研究路径。代码已开源:https://github.com/Tencent/TAIHRI。
在本研究中,我们通过将图像对表征为区域的结构化组合,提出了比较式图像评估的新视角。与现有方法侧重于整体图像分析而隐式依赖区域级理解不同,我们将场景图的概念从图像内扩展至图像间,并提出了失真图(DG)这一新任务。失真图将配对图像视为基于区域的结构化拓扑,以紧凑可解释的图结构呈现失真类型、严重程度、对比关系和质量评分等密集退化信息。为实现失真图的学习任务,我们贡献了(i)区域级数据集PandaSet,(ii)具有不同区域级难度的基准测试集PandaBench,以及(iii)用于生成失真图的高效架构Panda。实验表明,PandaBench对当前最先进的多模态大语言模型(MLLM)构成显著挑战——即使提供显式区域提示,这些模型仍难以理解区域级退化。我们证明,通过PandaSet训练或采用失真图提示能激发模型对区域级失真的理解能力,为细粒度结构化图像对评估开辟了新方向。
利用语言模型合成监督微调数据以训练小模型执行多语言任务的做法日益普遍。然而教师模型的选择往往缺乏系统性,通常默认采用规模最大的可用模型,尽管这类模型在非英语语言上可能存在显著能力差距。这种做法可能导致合成数据质量低下,进而影响学生模型的下游性能。本研究系统性地探讨了高效多语言教师模型的特征,通过我们提出的"多语言能力评分"指标,将数据质量的内在衡量标准与学生模型的外在表现相结合:评估了涵盖6种类型学差异语言的10个语言模型,生成超过140万条监督微调样本,并训练了240个学生模型。在测试模型中,Gemma 3 27B和Aya Expanse 32B在不同学生基础模型架构中均展现出稳定的教学效果。进一步分析表明,仅凭模型规模不能有效预测教学效能;而提示多样性、响应长度及回答流畅度等数据质量特征可解释93.3%的内在质量差异,并能预测学生模型表现。最后我们提出实用建议,包括匹配师生模型的架构家族、基于现有提示进行翻译或响应,这些策略可提升资源稀缺语言的表现。本研究旨在推动多语言合成数据与语言模型开发中以数据为中心的研究进程。
符号音乐研究长期依赖MIDI格式数据集,而基于文本的乐谱排版格式(如LilyPond)在音乐理解领域尚未得到探索。我们推出BMdataset——一个由音乐学家精心策划的数据集,包含393份由专家直接根据巴洛克时期原始手稿转录的LilyPond乐谱(涵盖2,646个乐章),并附有包含作曲家、音乐形式、乐器编制及段落属性的元数据。基于此资源,我们提出LilyBERT(权重详见https://huggingface.co/csc-unipd/lilybert),该模型通过扩展115个LilyPond专用标记的词汇表,并采用掩码语言模型预训练,将CodeBERT架构适配于符号音乐数据。在跨域Mutopia语料库上的线性探测实验表明:尽管规模较小(约9000万标记),仅基于BMdataset微调的模型在作曲家和风格分类任务上均优于在完整PDMX语料库(约150亿标记)上持续预训练的效果,这证明小型专家级精标数据集比大型嘈杂语料库对音乐理解更有效。结合广泛预训练与领域特定微调可获得最佳综合效果(作曲家识别准确率达84.3%),证实两种数据模式具有互补性。我们公开数据集、分词器及模型,为LilyPond表征学习建立基准。
键值对(KV)缓存通过存储注意力中间状态并避免自回归生成中的冗余计算,对加速大语言模型推理具有关键作用。然而其内存占用量随序列长度线性增长,常导致资源受限硬件出现严重内存瓶颈。现有研究尝试将KV缓存卸载至CPU而仅保留子集于GPU,但这类方法常依赖粗略的令牌选择,在思维链推理等长序列生成任务中表现不佳。本文提出新型KV缓存管理策略IceCache,将语义令牌聚类与分页注意力机制相结合。通过把语义关联的令牌组织到由动态可更新分层数据结构管理的连续内存区域,本方法在CPU-GPU传输过程中实现了更高效的令牌选择和内存带宽利用。LongBench上的实验表明:在256个令牌的预算下,IceCache可保持全量KV缓存模型99%的原始准确率。相较于其他基于卸载的方法,IceCache仅需25%的KV缓存令牌预算即可达到相当甚至更优的延迟与准确率,证明了其在长序列场景下的有效性。代码已发布于项目网站https://yuzhenmao.github.io/IceCache/。
本技术中期报告介绍了SHARE系列基础模型及MIRROR用户界面。SHARE模型是首个由社会科学与人文领域(SSH)自主完成全预训练的因果语言模型。根据我们自主研发的SSH完形填空基准测试表明,该模型在SSH文本建模任务中的表现已接近参数量百倍于其的通用模型(Phi-4)。MIRROR界面专为SSH学科文本审阅而设计,在保持批判性参与的同时,通过构建不生成任何文本的生成式AI界面原型,我们探索出既能发挥SHARE模型效能又不违背SSH原则与规范的应用路径。
我们提出ATANT(叙事真实性自动化测试框架),这是一种用于衡量AI系统连续性的开放评估框架——即系统跨时间持久保持、更新、消歧和重构有意义语境的能力。尽管AI行业已开发出多种记忆组件(RAG流水线、向量数据库、长上下文窗口、画像层),但目前尚未有公开框架能正式定义或评估这些组件是否产生真正的连续性。我们将连续性定义为包含7项必备特性的系统属性,引入无需LLM参与评估循环的10项检测点方法,并构建了包含250个故事的叙事测试集,涵盖6大生活领域的1,835个验证问题。通过5轮测试套件迭代评估参考实现,其得分从传统架构的58%提升至隔离模式(250个故事)的100%,50故事累积模式下的100%,以及在250故事累积规模下达到96%。累积测试结果是核心衡量标准:当250个独立人生叙事共存于同一数据库时,系统必须为正确语境检索准确事实且避免交叉污染。ATANT具有系统无关性、模型独立性,可作为构建和验证连续性系统的序列化方法。框架规范、示例故事及评估协议详见https://github.com/Kenotic-Labs/ATANT。完整250故事集将逐步开源发布。
本文对经过对齐训练的语言模型中的策略路由机制进行了定位研究。中间层注意力门读取检测到的内容并触发深层放大器头,从而增强拒绝信号的传递。在较小模型中,该门控和放大器均为单一注意力头;而在更大规模模型中,它们会扩展为跨相邻层的注意力头带。该门控结构对输出DLA的贡献不足1%,但替换测试(p<0.001)与敲除级联实验证实其具有因果必要性。在n≥120的替换筛选中,从六个实验室的十二个模型(2B至72B参数)均检测到相同模式,尽管具体注意力头因实验室而异。单头消融在72B模型中效果减弱达58倍,且无法识别替换检测发现的网关;大规模审计中仅替换法具有可靠性。通过调节检测层信号,可连续控制策略从强硬拒绝、规避回避到事实应答的转变。在安全提示场景中,相同干预能使拒绝行为转化为有害指导,表明安全训练获得的能力受路由控制而非被移除。阈值随主题和输入语言动态变化,且该电路在模型家族代际间会发生迁移而行为基准测试无显著变化。路由机制采用早期承诺模式:门控在其所在层完成输入处理前即作出决策。在上下文替换密码实验中,三个模型的网关替换必要性下降70%至99%,模型转而进行谜题求解。向密码前向传播注入明文门控激活可使Phi-4-mini的拒绝率恢复48%,证明旁路发生在路由接口。第二种方法——密码对比分析,利用明文/密码DLA差异以O(3n)次前向传播完整映射密码敏感路由电路。任何能突破检测层模式匹配的编码均可绕过策略控制,无论深层是否重构内容。