每日精选AI研究论文及翻译
我们推出Green-VLA——一种分阶段实施的视觉-语言-动作框架,专为Green仿人机器人的实际部署设计,同时保持对不同形态机器人的泛化能力。该框架采用五阶段渐进式课程:(L0)基础视觉语言模型、(L1)多模态接地、(R0)多形态预训练、(R1)特定形态适配、(R2)强化学习策略对齐。我们通过时序对齐与质量过滤构建了可扩展的数据处理流水线(涵盖3000小时演示数据),并采用统一的多形态感知动作接口,使单一策略能同时控制仿人机器人、移动机械臂与固定基座机械臂。在推理阶段,该VLA控制器集成了任务进度预测、分布外检测和基于关节预测的引导机制,以提升安全性与目标选择精度。在Simpler BRIDGE WidowX与CALVIN ABC-D仿真环境及实体机器人上的实验表明,经过强化学习对齐的策略在成功率、鲁棒性和长周期任务效率方面均展现出卓越的泛化能力与性能提升。
我们推出开源多模态智能体模型Kimi K2.5,旨在推进通用智能体智能的发展。K2.5强调文本与视觉的联合优化,使两种模态相互增强。这包括联合文本-视觉预训练、零视觉SFT以及联合文本-视觉强化学习等一系列技术。基于此多模态基础,K2.5创新性地提出智能体集群(Agent Swarm)——一种自驱动的并行智能体编排框架,能够动态地将复杂任务分解为异构子问题并并行执行。大量评估表明,Kimi K2.5在编程、视觉、推理及智能体任务等多个领域均实现了最先进的性能。智能体集群技术还将延迟较单智能体基线最高降低了4.5倍。我们公开发布经过后训练的Kimi K2.5模型检查点,以促进智能体智能的未来研究和实际应用。
多模态大语言模型(MLLMs)在各类视觉任务中取得了显著成功。然而受限于其内部世界知识的容量,先前研究提出通过"先推理后工具调用"的方式增强MLLMs,借助视觉与文本搜索引擎在需要大量事实信息的任务上实现显著提升。但现有方法通常将多模态搜索置于理想化场景,仅假设单个全景/实体级图像查询和少量文本查询即可获取答题关键证据,这在充满视觉噪声的现实场景中并不适用。此外,这些方法在推理深度和搜索广度上存在局限,难以解决需要聚合多源视觉与文本证据的复杂问题。 基于此,我们提出Vision-DeepResearch,创新性地构建了多模态深度研究范式:通过多轮次、多实体、多尺度的视觉与文本搜索,在强噪声环境下实现对现实搜索引擎的鲁棒调用。我们的方法支持数十步推理流程和数百次引擎交互,同时通过冷启动监督和强化学习训练将深度研究能力内化至MLLM,最终形成强大的端到端多模态深度研究模型。实验表明,该模型显著优于现有多模态深度研究MLLMs,以及基于GPT-5、Gemini-2.5-pro和Claude-4-Sonnet等顶尖闭源基础模型构建的工作流。代码将发布于https://github.com/Osilly/Vision-DeepResearch。
多模态大语言模型(MLLMs)已显著推进视觉问答技术的发展,并开始支持基于搜索引擎进行复杂图文事实查证的视觉深度研究系统。然而,评估这类视觉与文本检索能力仍面临挑战,现有基准存在两大局限:其一,现有基准未以视觉搜索为核心——本需视觉搜索的答案常通过文本问题的跨文本线索泄露,或可被当前MLLMs的先验知识推断;其二,评估场景过度理想化:图像搜索侧常可通过全图近精确匹配获取信息,而文本搜索侧则过于直接且挑战性不足。为解决这些问题,我们构建了包含2,000个视觉问答实例的视觉深度研究基准(VDR-Bench)。所有问题均通过多阶段精心筛选流程和严格专家评审创建,旨在评估视觉深度研究系统在真实场景下的表现。此外,针对当前MLLMs视觉检索能力不足的问题,我们提出一种简单的多轮裁剪搜索工作流。该策略被证实在真实视觉检索场景中能有效提升模型性能。总体而言,我们的研究结果为未来多模态深度研究系统的设计提供了实用指导。代码将发布于https://github.com/Osilly/Vision-DeepResearch。
当前代码库智能体因表征碎片化而面临推理割裂问题,现有方法依赖孤立的API文档或缺乏语义深度的依赖图。我们将代码库理解与生成视为统一循环中的逆过程:生成将意图扩展为具体实现,而理解则将实现压缩回原始意图。为此,我们提出RPG-Encoder框架,将静态生成蓝图——代码库规划图(RPG)泛化为统一的高保真表征。该框架通过三重机制闭合推理循环:(1)将原始代码编码为融合语义特征与依赖关系的RPG;(2)通过增量式拓扑演化实现维护成本与代码库规模解耦,降低95.7%开销;(3)作为统一接口支持结构感知导航。在SWE-bench Verified评测中,RPG-Encoder以93.7%的Acc@5指标实现最先进的代码库理解能力,并在SWE-bench Live Lite上以超过最佳基线10%的优势领先。这些结果凸显了我们在复杂代码库中卓越的细粒度定位精度。此外,在RepoCraft数据集上达到98.5%的重建覆盖率,证实RPG具备镜像原始代码库的高保真能力,最终实现了意图与实现之间的闭环衔接。
统一多模态模型在处理需要深度推理的复杂合成任务时常面临挑战,通常将文本到图像生成与图像编辑视为孤立能力而非相互关联的推理步骤。为此,我们提出UniReason框架,通过双重推理范式将这两项任务协同整合。我们将生成任务构建为世界知识增强的规划过程以注入隐式约束,并利用编辑能力进行细粒度视觉优化,通过自我反思进一步修正视觉错误。该方法在共享表征空间内统一生成与编辑,模拟人类先规划后优化的认知流程。为支持该框架,我们系统构建了涵盖五大知识领域(如文化常识、物理定律等)的大规模推理中心数据集(约30万样本)用于规划,同时构建智能体生成的视觉自校正语料库。大量实验表明,UniReason在WISE、KrisBench和UniREditBench等推理密集型基准测试中取得先进性能,同时保持卓越的通用合成能力。
我们提出SWE-Universe,一个可扩展的高效框架,用于基于GitHub拉取请求(PR)自动构建真实世界的软件工程(SWE)可验证环境。为克服自动构建中普遍存在的生产良率低、验证器弱、成本高昂等挑战,该框架采用基于高效定制训练模型的构建智能体。该智能体通过迭代式自我验证与环内黑客检测机制,确保可靠生成高保真度的可验证任务。利用该方法,我们将真实世界的多语言SWE环境规模扩展至百万量级(807,693个)。通过大规模智能体中期训练与强化学习实验,我们证明了该环境的深层价值。最终,我们将此技术应用于Qwen3-Max-Thinking模型,在SWE-Bench Verified基准测试中取得75.3%的得分。本工作既为推进下一代编程智能体提供了关键资源,也贡献了稳健的方法论。
深度研究正逐渐成为大语言模型(LLM)智能体的代表性长周期任务。然而,深度研究中的长轨迹常常超出模型上下文限制,压缩了证据收集与报告撰写的令牌预算,阻碍了有效的测试时扩展。我们提出FS-Researcher——一种基于文件系统的双智能体框架,通过持久化工作空间将深度研究扩展至上下文窗口之外。具体而言,上下文构建器智能体扮演图书馆员的角色,负责浏览互联网、撰写结构化笔记,并将原始资料归档至可远超上下文长度的分层知识库中。随后,报告撰写器智能体以该知识库为事实来源,逐章节撰写最终报告。在此框架下,文件系统既充当持久化外部存储器,又作为跨智能体与会话的共享协调媒介,实现了超越上下文窗口的迭代优化。在两个开放式基准测试(DeepResearch Bench与DeepConsult)上的实验表明,FS-Researcher在不同骨干模型上均实现了最优的报告质量。进一步分析显示,最终报告质量与分配给上下文构建器的计算量呈正相关,验证了文件系统范式下测试时扩展的有效性。代码与数据已通过匿名方式开源:https://github.com/Ignoramus0817/FS-Researcher。
像素扩散技术以端到端方式直接在像素空间生成图像,避免了双阶段潜在扩散中VAE引入的伪影与瓶颈。然而,高维像素流形包含大量感知无关信号,其优化极具挑战性,导致现有像素扩散方法始终落后于潜在扩散模型。我们提出PixelGen——一种配备感知监督的简易像素扩散框架。该框架不再对完整图像流形建模,而是引入两种互补的感知损失来引导扩散模型学习更具意义的感知流形:LPIPS损失促进局部模式学习,基于DINO的感知损失则强化全局语义。通过感知监督,PixelGen超越了强力的潜在扩散基线——在无需分类器引导的情况下,仅用80训练轮次即在ImageNet-256上达到5.11的FID分数;在大规模文生图任务中展现出优异的扩展性能,获得0.79的GenEval评分。该方案无需VAE、潜在表示或辅助阶段,构建了更简洁却更强大的生成范式。代码已开源:https://github.com/Zehong-Ma/PixelGen。
渐进式学习(PL)通过逐步扩大模型规模来降低预训练计算开销。虽然前人研究已深入探索了深度扩展,但宽度扩展的研究仍明显不足,现有少数方法也仅限于训练早期阶段。然而,在训练中期进行宽度扩展对最大化计算效率节省至关重要,但由于严重的训练不稳定性,这仍是艰巨挑战。实验表明,该阶段简单的参数初始化会破坏激活值统计特性引发损失值尖峰,而基于复制的初始化方法又会因梯度对称性阻碍特征多样性。为解决这些问题,我们提出SPARKLING框架(通过平衡信号保持与对称性破缺实现宽度渐进学习),实现了中期宽度扩展的创新方案。该方法通过RMS尺度一致性保持信号稳定,确保扩展过程中激活统计特性平稳;采用非对称优化器状态重置与学习率重新预热机制实现对称性破缺。在混合专家模型上的大量实验表明,SPARKLING在多种宽度维度和优化器家族中均优于从头训练方法,在2倍宽度扩展下最高可降低35%训练成本。
基于语义ID(SID)的推荐是扩展序列推荐系统的潜力范式,但现有方法大多遵循语义中心流程:通过基础模型学习物品嵌入,并采用通用量化方案进行离散化。这种设计与生成式推荐目标存在偏差:语义嵌入与协同预测弱关联,通用量化在降低自回归建模的序列不确定性方面效率低下。为此,我们提出ReSID——一个面向推荐场景的、原理性SID框架,从信息保持和序列可预测性角度重构表征学习与量化过程,且无需依赖大语言模型。ReSID包含两个核心组件:(1)场感知掩码自编码(FAMAE),从结构化特征中学习预测充分的物品表征;(2)全局对齐正交量化(GAOQ),通过联合降低语义模糊性和前缀条件不确定性,生成紧凑且可预测的SID序列。理论分析和十项数据集的广泛实验验证了ReSID的有效性。该方法在强序列基线及基于SID的生成基线模型上平均提升超过10%,同时将标记化成本降低高达122倍。代码已开源:https://github.com/FuCongResearchSquad/ReSID。
推理大语言模型的后训练是一个整体性过程,通常包含离线监督微调(SFT)阶段和在线强化学习(RL)阶段。然而,当前SFT阶段往往被孤立优化,仅追求SFT性能最大化。 我们发现,在完全相同的RL训练后,从较强SFT检查点初始化的模型性能可能显著低于从较弱检查点初始化的模型。这归因于当前SFT-RL流程中的典型错配:生成离线SFT数据的分布与在线RL阶段通过自我推演优化的策略分布存在显著差异。 为此,我们提出PEAR(基于策略评估的离线学习损失重加权算法),一种在SFT阶段修正这种错配、为RL阶段更好预备模型的方法。PEAR通过重要性采样对SFT损失进行重加权,提供词元级、块级和序列级三种变体。该方法可无缝集成到标准SFT目标中,且在收集完离线数据概率后几乎不增加训练开销。 我们在Qwen 2.5/3和DeepSeek蒸馏模型上进行了可验证推理游戏和数学推理任务的对照实验。PEAR始终能提升模型在RL阶段后的性能,在AIME2025基准上实现了最高14.6%的8题通过率增益。实验结果表明,通过将下游RL目标融入SFT阶段的设计与评估,PEAR为实现更整体化的大模型后训练迈出了有效一步。
移动图形用户界面(GUI)世界模型(WMs)为提升移动GUI智能体在训练和推理阶段的性能提供了可行路径。然而现有方法面临关键权衡:基于文本的世界模型牺牲视觉保真度,而视觉世界模型因无法精确渲染文本,不得不依赖缓慢复杂、需调用多个外部模型的流程。我们提出全新范式:通过可渲染代码生成实现视觉世界建模,即让单一视觉语言模型(VLM)将下一GUI状态预测为可执行网页代码(渲染为像素),而非直接生成像素。该方案融合了两类方法的优势:VLM既保持了语言先验以实现精准文本渲染,又通过预训练阶段对结构化网页代码的学习实现了高保真视觉生成。我们推出基于此范式的首个开源视觉移动GUI世界模型gWorld(8B/32B参数版本),并配套自动生成代码训练数据的基础设施gWorld。在4个域内与2个域外基准测试中,gWorld在准确率与模型规模间建立了新的帕累托前沿,以50.25倍更小的参数量超越8个前沿开源模型。进一步分析表明:(1)通过gWorld扩展训练数据能带来显著增益;(2)流程中各组件均能提升数据质量;(3)更强的世界建模能力可提升下游移动GUI策略性能。
基于图谱的检索增强生成(GraphRAG)通过将外部知识组织为层次化图谱,实现了跨多文档分散证据的高效检索与聚合。然而,现有GraphRAG基准测试多采用经过整理的短文本片段作为外部知识,难以充分评估系统在长上下文和大规模异构文档的真实场景中的表现。为弥补这一不足,我们推出了WildGraphBench基准测试,旨在评估实际应用场景下的GraphRAG性能。我们利用维基百科的独特结构——其连贯叙述均源自长篇异构的外部参考文献——构建了反映真实场景的基准。具体而言,我们选取12个顶级主题领域的文章,以其外部参考文献作为检索语料库,将引文关联的陈述作为标准答案,最终构建包含1,100个问题的数据集,涵盖三个复杂度层级:单事实问答、多事实问答和章节级摘要。多基线实验表明,当证据来源数量适中时,当前GraphRAG流程有助于多事实聚合,但这种聚合范式可能过度强调高层级陈述而忽略细粒度细节,导致在摘要任务中表现较弱。项目页面:https://github.com/BstWPY/WildGraphBench。
思维链推理技术已推动大语言模型从纯文本思考扩展到图像与视频思考。然而不同模态仍存在明显局限:静态图像难以呈现时序结构,而视频则会引入大量冗余信息与计算成本。本研究提出"漫画思维"视觉推理范式,将漫画作为介于图像与视频之间的高信息密度媒介。漫画在显著降低推理成本的同时,能保留时序结构、嵌入式文本与叙事连贯性。我们系统研究了基于漫画的两种推理路径,并在多类推理任务与长上下文理解任务中进行评估。实验结果表明:在多步骤时序与因果推理任务中,漫画思维优于图像思维,同时仍比视频思维显著高效。进一步分析表明,不同漫画叙事结构与风格会对各类任务表现产生持续影响,这证实漫画可作为提升多模态推理效果的有效中间视觉表征。
我们提出RLAnything框架——一种通过闭环优化动态构建环境、策略与奖励模型的强化学习系统,能够增强学习信号并强化适用于各类大语言模型及智能体场景的RL系统。具体而言,该框架通过整合步骤级信号与结果信号的反馈来训练策略模型,同时利用一致性反馈联合优化奖励模型,进而反哺策略训练。此外,我们基于理论推导的自动环境适配机制,借助策略与奖励模型的批判性反馈实现经验学习,从而提升两者的训练效果。实证表明,每个新增组件都能持续提升系统整体性能:RLAnything在多项代表性LLM与智能体任务中取得显著增益,将Qwen3-VL-8B-Thinking在OSWorld上的表现提升9.1%,使Qwen2.5-7B-Instruct在AlfWorld和LiveBench上分别提升18.7%和11.9%。我们还发现经优化的奖励模型信号优于依赖人工标注的结果。代码地址:https://github.com/Gen-Verse/Open-AgentRL
深度研究智能体(DRAs)在自主信息检索与报告生成方面展现出卓越能力,为辅助人类完成复杂研究任务提供了巨大潜力。当前评估框架主要依赖大语言模型生成的参考内容或衍生的评估维度,虽然这类方法具备可扩展性,但往往缺乏专家验证内容的可靠性,且难以对关键维度进行客观细致的评估。为弥补这一缺陷,我们推出维基实时挑战赛(WLC),该动态基准测试平台以最新的维基百科优质条目(GAs)作为专家级参考标准。维基百科对中立性、全面性和可验证性的严苛要求对DRAs构成重大挑战,而优质条目正是这些标准的巅峰体现。我们精选了100篇近期优质条目构建数据集,并提出维基评估体系——包含39项写作质量细粒度评估标准的综合评价框架,以及严谨的事实可验证性指标。针对多种DRA系统的实验表明,当前DRAs与人类专家级维基百科文章之间存在显著差距,验证了WLC在推进智能体研究方面的有效性。我们的基准测试平台已发布于https://github.com/WangShao2000/Wiki_Live_Challenge。
直接偏好优化方法已成为人类反馈强化学习(RLHF)的一种高效计算替代方案,用于对齐大语言模型。最新方法通过推导隐式奖励函数简化了对齐流程,但普遍存在关键的目标失配问题:优化选定回复与拒绝回复之间的相对边际并不能保证维持选定回复的绝对似然度。这可能导致“遗忘现象”——模型为满足边际约束而降低高质量输出的概率,以及因过度惩罚拒绝序列引发的“格式崩塌”。本研究提出SLIME(稳定似然隐式边际约束),一种无需参考模型的对齐目标,旨在解耦偏好学习与生成质量。SLIME包含三重目标:(1)最大化优选回复似然度的锚定项;(2)防止拒绝标记概率坍缩至零的稳定惩罚项;(3)结合硬约束与软约束的双重边际机制,用于精确边界塑形。实验结果表明,SLIME在保持更高生成稳定性的同时,实现了优于现有基准模型的性能。
自回归视频扩散模型实现了流式生成,为长视频合成、视频世界模型和交互式神经游戏引擎开辟了道路。然而,其核心注意力层在推理时成为主要瓶颈:随着生成进程推进,KV缓存不断增长,导致延迟加剧和GPU内存攀升,进而限制可用时序上下文并损害长程一致性。本研究系统分析了自回归视频扩散中的冗余问题,识别出三个持续存在的来源:跨帧的近重复缓存键值、演化缓慢(主要承载语义信息)导致大量注意力计算冗余的查询/键向量,以及长提示词跨注意力中每帧仅需少量关键标记的特性。基于这些发现,我们提出面向自回归扩散模型的免训练统一注意力框架:TempCache通过时序对应关系压缩KV缓存以限制增长;AnnCA利用快速近似最近邻匹配筛选帧相关提示词标记来加速跨注意力;AnnSA则通过轻量级近似最近邻将每个查询限制在语义匹配的键向量上以实现自注意力稀疏化。这些模块协同降低注意力计算量和内存占用,且与现有自回归扩散主干网络及世界模型兼容。实验表明,在保持近乎一致视觉质量的同时,可实现最高5-10倍的端到端加速,更重要的是在长序列生成中维持稳定吞吐量和近乎恒定的GPU峰值内存使用,而现有方法会持续减速且内存占用不断攀升。
为实现实时交互式视频生成,当前方法将预训练的双向视频扩散模型蒸馏为少步自回归模型,但在全注意力机制被因果注意力替代时面临架构差异。然而现有方法未从理论上弥合这一差异。它们通过常微分方程蒸馏初始化自回归学生模型,该方法需满足帧级单射性条件——即自回归教师的概率流常微分方程下每个含噪帧必须映射到唯一的清晰帧。从双向教师模型蒸馏自回归学生会违反该条件,导致无法恢复教师的流映射,转而产生条件期望解,从而降低性能。为解决该问题,我们提出因果强制方法,采用自回归教师进行常微分方程初始化,由此弥合架构差异。实验结果表明,本方法在所有指标上均超越基线模型,动态度、视觉奖励和指令跟随分别较SOTA自强制方法提升19.3%、8.7%和16.7%。项目页面与代码:https://thu-ml.github.io/CausalForcing.github.io/
文本到视频(T2V)生成技术致力于合成具有高视觉质量、时间连贯性且与输入文本语义一致的视频。基于奖励的后训练方法已成为提升生成视频质量与语义对齐度的新兴方向。然而,现有方法或依赖大规模人工偏好标注,或采用预训练视觉-语言模型中未对齐的嵌入特征,导致可扩展性受限或监督效果欠佳。我们提出PISCES——一种无需标注的后训练算法,通过新型双重最优传输(OT)对齐奖励模块解决上述局限。为实现奖励信号与人类判断的对齐,PISCES运用OT技术在分布级和离散令牌级构建文本与视频嵌入的桥梁,使奖励监督实现双重目标:(1)分布级OT对齐质量奖励,捕捉整体视觉质量与时间连贯性;(2)离散令牌级OT对齐语义奖励,强化文本与视频令牌间的语义化时空对应关系。据我们所知,PISCES是首个通过OT视角改进生成式后训练中无标注奖励监督的方法。在短视频与长视频生成任务上的实验表明,PISCES在VBench评估的质量与语义分数上均优于基于标注和无标注的方法,人类偏好研究进一步验证其有效性。我们证明双重OT对齐奖励模块可兼容多种优化范式,包括直接反向传播与强化学习微调。
尽管文本到图像生成已实现前所未有的逼真度,但现有模型本质上仍是静态的文本到像素解码器,往往难以捕捉用户的隐含意图。虽然新兴的统一理解-生成模型提升了意图理解能力,但在处理需要复杂知识推理的任务时仍显不足。此外,受限于静态内部先验,这些模型无法适应现实世界的动态变化。为弥补这些缺陷,我们提出Mind-Brush——一个将生成过程转化为动态知识驱动工作流的智能体框架。该框架模拟人类“思考-检索-创作”的范式,主动获取多模态证据以锚定分布外概念,并运用推理工具解析隐含的视觉约束。为系统评估这些能力,我们构建了包含500个样本的Mind-Bench综合基准,涵盖实时新闻、新兴概念及数学与地理推理等领域。大量实验表明,Mind-Brush显著增强了统一模型的能力,使Qwen-Image基线在Mind-Bench上实现从零到一的能力跃迁,同时在WISE、RISE等成熟基准测试中取得领先结果。
当前,提升大语言模型知识蒸馏效果的研究正从密集的教师监督转向选择性蒸馏策略,即仅对部分词元位置、词汇类别或训练样本进行监督。然而,关于何种重要性信号、选择策略及其相互作用最为有效仍不明确。本研究重新审视了自回归大语言模型中知识蒸馏的位置与方式,沿位置、类别和样本三个维度解构选择性知识蒸馏,系统比较了重要性信号与选择策略。基于此分析,我们发现了尚未充分探索的优化空间,提出了基于学生熵指导的位置选择方法(SE-KD)。在一系列基准测试中,SE-KD相比密集蒸馏方法往往能提升模型精度、下游任务适配性及内存效率。将该方法扩展至类别与样本维度(SE-KD 3X)可产生互补性效率增益,使得离线教师缓存成为可能。实际应用中,相较于现有方法,该方案在保持性能不变的同时将训练时间缩短70%,峰值内存降低18%,存储占用减少80%。
基于大语言模型的深度研究智能体主要构建在ReAct框架之上。这种线性设计难以回溯早期状态、分支探索替代方向或在长上下文下保持全局认知,常导致局部最优、冗余探索和低效搜索。我们提出Re-TRAC智能体框架,通过在每个轨迹后生成结构化状态表征来总结证据、不确定性、失败案例及未来计划,并使后续轨迹基于该状态表征进行条件化执行,从而实现跨轨迹探索。该框架支持迭代式反思与全局知情规划,将研究重构为渐进式过程。实验结果表明,在BrowseComp基准测试中,Re-TRAC使用前沿大语言模型时持续优于ReAct框架15-20%。针对小规模模型,我们引入Re-TRAC感知的监督微调方法,在同等规模下实现了最先进性能。值得注意的是,Re-TRAC在多轮迭代中呈现工具调用次数和令牌使用量的单调递减,表明其通过跨轨迹反思驱动了渐进式目标探索,而非冗余搜索。
我们提出FSVideo,一种基于快速变换器的图像到视频(I2V)扩散框架。该框架的核心构建模块包括:1)新型视频自编码器,其具备高度压缩的潜在空间(时空下采样比达64×64×4),在保证重建质量的同时实现高效压缩;2)采用新型层间记忆设计的扩散变换器(DIT)架构,通过增强层间信息流与上下文复用提升性能;3)基于多步DIT上采样器的多分辨率生成策略,有效提升视频保真度。我们的最终模型包含140亿参数的基础DIT模型和140亿参数的上采样DIT模型,在性能上可与主流开源模型相媲美,同时生成速度提升一个数量级。本报告将详细阐述模型设计及训练策略。
日本金融领域融合了黏着语序的末尾核心语法结构、混合书写体系以及依赖间接表达与隐性承诺的高语境交流规范,这对大语言模型构成显著挑战。我们推出Ebisu基准测试——针对本土日语金融语言理解的评估体系,包含两项基于语言文化特性并由专家标注的任务:JF-ICR任务通过投资者问答场景评估隐性承诺与婉拒识别能力,JF-TE任务则从专业披露文件中检验嵌套金融术语的层级提取与排序能力。我们对涵盖通用型、日语优化型及金融专用型在内的多类开源与商用大模型进行测试。结果表明,即使最先进的系统在两项任务中均表现不佳。虽然扩大模型规模能带来有限提升,但针对语言和领域的专门优化并未稳定改善性能,仍有显著差距亟待解决。Ebisu为推进基于语言文化特性的金融自然语言处理研究提供了精准的基准框架,所有数据集与评估代码均已公开。
视觉隐喻作为人类创造力的高级形态,通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得了显著进展,现有模型仍主要局限于像素级指令对齐和表层特征保持,未能捕捉真正隐喻生成所需的深层抽象逻辑。为弥补这一差距,我们提出视觉隐喻迁移(VMT)任务,要求模型自主从参考图像中解耦"创意本质",并将该抽象逻辑重现在用户指定的目标主体上。我们受认知科学启发,提出多智能体框架,通过新型图式语法("G")实现概念整合理论(CBT)的操作化。这种结构化表征将关系不变性从具体视觉实体中解耦,为跨域逻辑重实例化奠定严谨基础。我们的流水线通过专业化智能体协作系统执行VMT:感知智能体将参考图像提炼为图式,迁移智能体维持泛型空间不变性以发现适配载体,生成智能体负责高保真合成,以及模拟专业批评家的分层诊断智能体,通过闭环回溯机制在抽象逻辑、组件选择和提示编码层面识别并修正错误。大量实验和人工评估表明,本方法在隐喻一致性、类比适切性和视觉创造力方面显著优于现有基线,为广告与媒体领域的自动化高影响力创意应用开辟了新途径。源代码将公开发布。
多模态大语言模型(MLLMs)在开放词汇感知任务中取得了显著成功,但其解决复杂认知问题的能力仍存在局限,尤其在需要视觉记忆的抽象视觉细节处理场景中。当前方法主要沿文本空间扩展思维链(CoT)推理,即便在仅靠语言难以实现清晰结构化推理时,也普遍忽视了类似人类视觉空间画板与视觉意象的视觉推理机制。为弥补这一缺陷,我们提出认知超感知训练范式,通过引入潜在视觉意象预测(LVIP)模块,使MLLMs能够联合学习视觉认知潜在嵌入序列并与答案对齐,从而形成基于视觉的内部推理链。我们进一步引入强化学习阶段,基于此具象化的视觉潜在空间优化文本推理路径。为评估MLLMs的认知能力,我们提出CogSense-Bench综合视觉问答基准,涵盖五大认知维度。大量实验表明,采用认知超感知训练的MLLMs在CogSense-Bench上显著优于现有最优基线模型,并在跨领域数学与科学VQA基准上展现出卓越的泛化能力,这提示内部视觉意象可能是连接感知识别与认知理解的关键桥梁。我们将开源CogSense-Bench基准及模型权重。
近期生成模型在图像编辑领域取得了显著进展。然而现有系统和基准测试仍主要基于文本引导。相比之下,人类交流本质上是多模态的,其中草图等视觉指令能有效传递空间与结构意图。为弥补这一差距,我们推出VIBE(视觉引导图像编辑基准),该框架采用三级交互体系,涵盖指示性定位、形态操控与因果推理三个层次。我们在这三个层级上精心构建了高质量、多样化的测试案例,体现视觉指令跟随任务的渐进式复杂度提升。此外,我们提出基于大语言模型的评估框架,结合任务特异性指标,实现可扩展的细粒度评估。通过对17个代表性开源与商业图像编辑模型的系统评测,发现商业模型已具备初级视觉指令跟随能力且持续优于开源模型。但随着任务难度增加,即使最强系统的性能也会显著下降,这为未来研究指明了富有前景的方向。
生成会说话的数字人是视频生成领域的一项基础任务。尽管现有方法能够生成带有简单人体动作的全身说话形象,但将该任务扩展到具身人机交互(GHOI)仍面临挑战,需要数字人与周围物体进行文本对齐的交互。这一挑战源于环境感知的需求以及GHOI生成中控制质量两难的问题。为此,我们提出新型双流框架InteractAvatar,将感知规划与视频合成解耦以应对具身人机交互。通过引入检测技术增强环境感知,我们开发了感知交互模块(PIM)来生成文本对齐的交互动作。此外,提出音频交互感知生成模块(AIM)来合成执行物体交互的生动说话数字人。借助专门设计的运动-视频对齐器,PIM与AIM采用相似网络结构,可实现动作与合理视频的并行协同生成,有效缓解控制质量两难问题。最后,我们建立了GroundedInter基准数据集用于评估GHOI视频生成。大量实验对比表明,我们的方法在生成具身人机交互的说话数字人方面具有显著优势。项目页面:https://interactavatar.github.io
传统奖励模型通常预测标量分数,难以捕捉不可验证领域(如创意写作或开放式指令遵循)中回答质量的多维特性。为突破这一局限,我们提出Rubric-ARM框架,通过基于偏好的强化学习联合优化评分细则生成器与评判器。与依赖静态细则或割裂训练流程的现有方法不同,我们的方法将细则生成视为潜在动作,通过最大化评判准确度进行学习。针对同步更新的非平稳性问题,我们引入交替优化策略,并通过理论分析证明该方案能有效降低训练过程中的梯度方差。大量实验表明,Rubric-ARM在多个基准测试中超越基线方法达到最优性能,并在离线和在线强化学习场景下显著提升下游策略对齐效果。
计算机使用智能体(CUAs)旨在自主操作计算机系统以完成现实世界任务。然而,现有智能体系统仍难以规模化且性能落后于人类。关键限制在于缺乏可复用、结构化的技能抽象,这些抽象应能捕捉人类与图形用户界面的交互方式以及如何利用这些技能。我们推出CUA-Skill——一个将人类计算机使用知识编码为技能的计算智能体技能库,该库集成了参数化执行流程与组合图谱。作为覆盖常见Windows应用程序的大规模精细化技能集合,CUA-Skill为可扩展、高可靠的智能体开发提供了实用基础设施与工具基底。基于此技能库,我们构建了支持动态技能检索、参数实例化及记忆感知故障恢复的端到端计算机使用智能体CUA-Skill Agent。实验结果表明,在具有挑战性的端到端智能体基准测试中,CUA-Skill显著提升了执行成功率和鲁棒性,为未来计算机使用智能体发展奠定了坚实基础。在WindowsAgentArena测试平台上,CUA-Skill Agent以57.5%的三次最佳成功率刷新纪录,同时较现有及同期方法实现显著效能提升。项目页面详见https://microsoft.github.io/cua_skill/。
当前针对大语言模型(LLM)的控制方法——包括局部权重微调、基于LoRA的适配以及基于激活状态的干预——往往被孤立研究,这掩盖了它们之间的内在联系并导致对比困难。本研究提出统一视角,将这类干预措施视为由控制信号引发的动态权重更新,并将其纳入同一概念框架。基于此视角,我们建立了统一偏好-效用分析框架:将控制效果分解为偏好(指向目标概念的倾向性)和效用(保持生成连贯性与任务有效性),并采用极性配对对比样本在共享对数几率尺度上量化二者。所有方法均呈现一致的偏好-效用权衡规律:强化控制会提升偏好,但会可预见地降低效用。我们进一步通过激活流形视角解释该现象:控制操作会沿目标概念方向移动表征以增强偏好,而当干预使表征偏离模型的有效生成流形时,效用则显著下降。最后,基于此分析我们提出新型引导方法SPLIT,在提升偏好的同时更好地保持效用。代码已发布于https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md。
本文揭示了大型语言模型隐藏状态中存在一个稀疏奖励子系统,其功能可类比于人脑中的生物奖励机制。我们证实该子系统包含表征模型内部状态价值期望的价值神经元,并通过干预实验验证了这些神经元对推理过程的关键作用。实验表明,这些价值神经元在不同数据集、模型规模和架构下均保持稳定性,且在基于同一基础模型微调的不同模型和数据集间表现出显著的迁移能力。通过分析价值预测与实际奖励出现偏差的案例,我们在奖励子系统中发现了编码奖励预测误差的多巴胺神经元——当实际奖励高于预期时这些神经元被高度激活,低于预期时则激活程度降低。
近期视觉推理研究利用视觉变换器攻克ARC-AGI基准测试,但我们认为前馈架构(其计算深度严格受参数规模限制)难以捕捉人类归纳的迭代式算法特性。本文提出名为Loop-ViT的递归架构,通过权重绑定的循环机制解耦推理深度与模型容量。该模型通过迭代执行融合局部卷积与全局注意力的权重绑定混合模块,构建潜在思维链。关键创新在于基于预测熵的无参数动态退出机制:当模型内部状态"结晶"为低不确定性吸引子时自动终止推理。在ARC-AGI-1基准上的实验验证了该观点:我们的1800万参数模型以65.8%准确率超越7300万参数集成模型。这些发现表明,自适应迭代计算为视觉推理提供了比单纯增加网络宽度更高效的扩展路径。代码已开源:https://github.com/WenjieShu/LoopViT。
大型语言模型(LLMs)通过逐步链式推理(CoT)已展现出强大的推理能力。然而在模型能力边界处,CoT往往力有未逮,其严格的顺序特性也限制了测试时的可扩展性。分治推理(DAC)作为一种潜在替代方案,通过将复杂问题分解为子问题来促进更有效的解决方案探索。尽管前景可观,我们的分析发现通用后训练与DAC式推理之间存在根本性错位,这限制了模型充分发挥其潜力。为弥补这一差距并全面释放LLMs在最具挑战性任务上的推理能力,我们提出端到端强化学习(RL)框架以增强其DAC式推理能力。该框架在每一步将问题分解为子问题集,依次求解后基于子问题解决方案处理原问题,并将分解与求解过程共同纳入RL训练。在同等训练条件下,我们的DAC框架使模型具备更高的性能上限和更强的测试时扩展性,在竞赛级基准测试中Pass@1和Pass@32指标分别较CoT提升8.6%和6.3%。
文本到图像生成技术虽已取得显著进展,但现有方法普遍缺乏动态推理与迭代优化的能力——而这正是人类创造力的核心特征。当前基于推理增强的范式大多依赖显性思维过程,需在固定步骤将中间推理解码为离散文本,并频繁进行图像编解码,导致效率低下、信息丢失及认知失配。为弥补这一缺陷,我们提出LatentMorph新型框架,将隐式潜在推理无缝集成至图像生成流程。该框架核心包含四个轻量化组件:(i)用于将中间生成状态压缩为紧凑视觉记忆的冷凝器;(ii)将潜在思维转化为可操作指导的转换器;(iii)动态引导后续图像令牌预测的塑形器;(iv)通过强化学习训练的自适应推理调用器。通过在连续潜在空间中完成全流程推理,LatentMorph规避了显性推理的瓶颈,实现了更高效的自适应优化。大量实验表明:LatentMorph(I)在GenEval和T2I-CompBench基准上分别将基础模型Janus-Pro性能提升16%和25%;(II)在WISE、IPV-Txt等抽象推理任务中超越显式推理范式(如TwiG)15%和11%;(III)同时将推理时间减少44%,令牌消耗降低51%;(IV)在推理调用机制上展现出与人类直觉71%的认知对齐度。
人工智能代理处理日益复杂和长时间任务的能力持续提升,在编程、深度研究和复杂问题解决评估中展现出卓越性能。然而在日常场景中,普通用户对这些先进AI能力的认知仍存在局限。我们认为当前评估体系过度关注任务难度的提升,却未能充分覆盖广泛人群日常工作、生活与学习所需的多样化代理任务。为此,我们提出AgentIF-OneDay基准,旨在验证普通用户能否通过自然语言指令和AI代理完成多元化的日常任务。这些任务不仅需要通过对话解决问题,还要求理解多种附件类型并交付可落地的文件成果。该基准围绕三大用户中心型类别构建:开放式工作流执行(评估对明确复杂流程的遵循能力)、潜在指令理解(要求从附件中推断隐含指令)以及迭代优化(涉及对进行中工作的修改扩展)。我们采用实例级量规和改进的评估流程,使基于大语言模型的验证与人类判断保持一致,使用Gemini-3-Pro实现了80.1%的判定一致率。AgentIF-OneDay包含104项任务,覆盖767个评分点。通过对四款主流通用AI代理的测试发现,基于API构建的代理产品与基于强化学习的ChatGPT代理仍同时处于第一梯队。领先的大语言模型API和开源模型已内化代理能力,使AI应用团队能开发前沿的代理产品。
随着基于大语言模型的智能体日益应用于复杂现实场景,现有基准测试难以充分体现关键挑战,例如全局约束的强制执行、多工具协同推理能力,以及面对长程多轮交互时对用户行为动态变化的适应性。为弥补这一空白,我们推出TRIP-Bench——一个基于真实旅行规划场景的长程交互基准。该基准利用真实世界数据,提供18个精选工具与40余项旅行需求,并支持自动化评估。其包含不同难度层级:困难级重点考察长时模糊对话、风格转换、可行性动态调整及迭代式方案修订等场景。对话跨度可达15轮用户交互,涉及逾150次工具调用,上下文长度可能超过20万词元。实验表明,即使先进模型在简单层级上的成功率最高仅达50%,而在困难子集上表现骤降至10%以下。我们进一步提出GTPO方法,这是一种结合专用奖励归一化与差分奖励机制的在线多轮强化学习算法。将其应用于Qwen2.5-32B-Instruct模型后,GTPO显著提升了约束满足度与交互鲁棒性,在我们的评估中表现优于Gemini-3-Pro。我们期待TRIP-Bench能推动实用型长程交互智能体的发展,同时GTPO能为鲁棒的长程训练提供有效的在线强化学习方案。
流匹配模型已彻底改变文本到图像生成领域,其中强化学习作为关键的后训练策略用于实现奖励目标对齐。本研究发现,当前流匹配模型的强化学习流程存在两个未被充分重视但至关重要的问题:因生成多样性不足导致的样本低效性,以及显著的提示词过拟合现象——模型会机械记忆特定训练表述,在面对语义相同但风格变化的提示词时出现性能断崖式下跌。我们提出PromptRL(基于流模型的图像生成中提示词优化的强化学习框架),将语言模型作为可训练的提示词优化智能体直接嵌入流式强化学习优化循环。该设计产生两项互补优势:快速形成复杂提示词重写能力,以及重塑优化动态的协同训练机制。PromptRL在多个基准测试中实现最先进性能,在GenEval上获得0.97分,OCR准确率0.98分,PickScore得分24.05。 此外,我们在大规模图像编辑模型上验证了该强化学习方法的有效性,仅用6万次推演就将FLUX.1-Kontext的EditReward从1.19提升至1.43,超越得分为1.37的Gemini 2.5 Flash Image(亦称Nano Banana),并与依赖细粒度数据标注和复杂多阶段训练的ReasonNet(1.44分)达到相当性能。大量实验证实,相比纯流模型强化学习,PromptRL能以超过2倍的样本效率持续达到更高性能上限。代码已开源:https://github.com/G-U-N/UniRL。
稀疏自编码器(SAE)作为一种通过将激活分解为字典原子的稀疏组合来解读神经网络表征的方法已展现出潜力。然而SAE假设特征通过线性重构以加性方式组合,这一假设无法捕捉组合结构:线性模型无法区分"星巴克"究竟源于"星星"和"咖啡"特征的组合,还是仅来自二者的共现。这迫使SAE为复合概念分配整体特征,而非将其分解为可解释的组成部分。我们提出PolySAE,通过高阶项扩展SAE解码器以建模特征交互,同时保留对可解释性至关重要的线性编码器。通过在共享投影子空间上进行低秩张量分解,PolySAE以较小的参数开销(GPT2上为3%)捕获二元和三元特征交互。在四个语言模型和三种SAE变体上的实验表明,PolySAE在保持相当重构误差的同时,探测F1分数平均提升约8%,且类条件特征分布间的Wasserstein距离扩大2-10倍。关键的是,学习到的交互权重与共现频率的相关性可忽略不计(r=0.06,而SAE特征协方差为r=0.82),表明多项式项捕获的组合结构(如形态绑定和短语组合)与表层统计量基本无关。
大型推理模型(LRMs)通过训练于具有挑战性的竞赛级题目获得了显著提升。然而,现有自动化题目生成方法存在难度控制不精确、计算成本高、难以规模化生成竞赛级题目等问题。本文提出CoDiQ(可控难度题目生成框架),该创新框架通过测试时缩放实现细粒度难度控制,同时确保题目可解性。具体而言,我们首先揭示了测试时缩放规律(扩展推理标记预算会提升难度但降低可解性),以及定义模型生成有效高难度题目能力上限的内在属性。基于此,我们从Qwen3-8B开发出CoDiQ生成器,该生成器提升了高难度题目生成的能力上限,特别适用于构建挑战性题目。依托CoDiQ框架,我们构建了CoDiQ语料库(包含4.4万条竞赛级题目序列)。人工评估表明,这些题目相较于LiveCodeBench/AIME显著更具挑战性,且保持超过82%的可解率。使用CoDiQ语料库训练LRMs能显著提升推理性能,验证了扩展可控难度训练题目可增强推理能力。我们开源CoDiQ语料库、CoDiQ生成器及实现方案以支持相关研究。
在流式场景下部署现代语音语言模型(SpeechLM)需要系统具备低延迟、高吞吐量及强流式保障能力。现有系统难以灵活高效地支持多样化模型。我们提出VoxServe——一个针对SpeechLM的流式服务系统,可优化语音模型的流式处理性能。该系统通过模型执行抽象层实现模型架构与系统级优化的解耦,从而在统一框架内支持多种SpeechLM架构。基于此抽象层,VoxServe采用流式感知调度机制和异步推理流水线来提升端到端效率。在多个现代SpeechLM上的测试表明,在保持相当延迟水平的情况下,VoxServe的吞吐量较现有实现提升10-20倍,同时具备优异的流式处理能力。项目代码已开源:https://github.com/vox-serve/vox-serve。
基于查询的通用声音分离是智能听觉系统的基础,旨在从混合音频中分离特定声源。尽管近期取得进展,现有方法在复杂声学场景中仍存在残留干扰问题。这一性能局限主要源于数据瓶颈:真实场景数据集存在标签弱监督性及事件严重共现现象,导致模型学习到背景噪声与目标类别间的伪相关性而非鲁棒的声学特征。为此,我们提出自动化流程,通过语义一致性合成协议从真实数据集中挖掘高纯度单事件片段以消除事件共现。基于该流程,我们构建了包含2400小时原始音频的高质量合成数据集Hive。实验表明,与基于比Hive大500倍数据集训练的先进模型SAM-Audio相比,某些在Hive上训练的开源模型实现了相当的分离精度与感知质量。此外,这些模型在分布外评估基准上展现出卓越的零样本泛化能力。这些发现证明,提升监督信号纯度可显著提高数据效率,为以更低计算成本训练鲁棒听觉基础模型提供了新范式。代码与数据集详见https://shandaai.github.io/Hive。
多模态大语言模型(MLLMs)因视觉令牌过多而面临高昂计算成本,尤其在处理高分辨率图像和视频场景时更为突出。现有令牌缩减方法通常聚焦于孤立流程组件,且常忽视文本对齐,导致性能下降。本文提出VisionTrim——一种无需训练的统一加速框架,集成两个即插即用模块:1)主导视觉令牌选择(DVTS)模块,通过全局-局部视角保留关键视觉令牌;2)文本引导视觉补充(TGVC)模块,基于文本线索实现上下文感知的令牌融合。在多种图像与视频多模态基准测试上的实验表明,VisionTrim具有显著性能优势,推动了多模态大语言模型在实际应用中的部署。代码已开源:https://github.com/hanxunyu/VisionTrim。
世界模型通过学习环境动态的内部表征,使智能体能够在紧凑的潜在空间中模拟和推理未来状态,以完成规划、预测和推断等任务。然而,运行世界模型依赖高昂的计算成本与内存占用,使得模型量化成为高效部署的关键。迄今为止,训练后量化(PTQ)对世界模型的影响尚未得到系统研究。本文以DINO-WM为代表性案例,对世界模型量化展开系统性实证研究,在仅权重量化及权重-激活联合量化两种设置下评估多种PTQ方法。我们在多种视觉规划任务上进行了广泛实验,覆盖不同比特位宽、量化粒度及长达50步的规划跨度。实验结果表明:世界模型中的量化效应远超传统的精度-位宽权衡——分组权重量化可稳定低比特推演,激活量化粒度带来的收益不一致,且编码器与预测器模块的量化敏感性呈现高度不对称性。此外,激进的低比特量化会显著削弱规划目标与任务成功率之间的对齐关系,导致无法通过额外优化修复的失效现象。这些发现揭示了基于世界模型的规划中特有的量化失效模式,为严格计算约束下量化世界模型的部署提供了实用指导。代码已发布于https://github.com/huawei-noah/noah-research/tree/master/QuantWM。
大型语言模型(LLM)目前常通过提示工程作为无参考评估器使用,但这种"LLM即评委"范式存在成本高昂、机制不透明且对提示设计敏感等问题。本研究探索了小模型能否通过利用内部表征而非表层文本来担任高效评估器。我们发现了一个稳定的经验规律:尽管小模型生成能力较弱,但其隐藏状态中编码了丰富的评估信号。这促使我们提出语义容量不对称假说:评估任务所需的语义容量远低于生成任务,且可基于中间表征实现,表明评估未必依赖大规模生成模型,而能利用小模型的潜在特征。这一发现推动了从"LLM即评委"到"表征即评委"的范式转变——后者采用无需解码的评估策略,通过探查模型内部结构而非提示输出来实现评估。我们通过INSPECTOR框架实例化了该范式,该基于探针的框架能从小模型表征中预测细粒度评估分数。在推理基准测试(GSM8K、MATH、GPQA)上的实验表明,INSPECTOR显著优于基于提示的小模型评估方法,并接近全量LLM评委的性能,同时为可扩展评估提供了更高效、可靠且可解释的替代方案。
智能体化大语言模型所要求的能动性不仅限于正确应答,更需要具备自主设定目标与探索方向的自主性。我们将这种能力定义为探查型智能,以区别于仅能完成指派任务的执行型智能。数据科学领域天然适合验证此类能力,因为真实世界的数据分析始于原始数据而非明确问题,但现有基准测试鲜少关注这一维度。为此,我们提出深度数据研究任务——让大语言模型自主从数据库提取关键洞见,并构建了基于可验证检查表的大规模基准测试DDR-Bench。实验表明,尽管前沿模型已显现初步的能动性,但长周期自主探索仍具挑战。我们的分析强调,有效的探查型智能不仅依赖智能体框架或单纯规模扩张,更取决于模型内在的自主策略。
大型视觉语言模型(LVLM)在单图像任务中表现优异,但在处理多图像输入时性能会出现下降。其主要原因在于跨图像信息泄露问题,即模型难以有效区分不同图像间的信息。现有LVLM虽已采用分隔符标记每张图像的起止位置,但我们的分析表明这些标记未能有效阻断跨图像信息泄露。为提升分隔符效能,我们提出一种对分隔符隐藏状态进行缩放的方法。该方法通过强化图像内部交互并限制不必要的跨图像交互,增强模型保留图像特定信息的能力,从而使模型能更清晰地区分不同图像并实现更精准的推理。实验结果表明,该方法在Mantis、MuirBench、MIRB和QBench2等多图像基准测试中均取得性能提升。我们进一步在需要清晰区分的纯文本任务上评估本方法,其在TQABench、MultiNews和WCEP-10等多文档多表格理解基准测试中同样表现出性能改进。值得注意的是,该方法无需增加任何训练或推理成本。
可验证奖励的强化学习(RLVR)在提升大语言模型推理能力方面展现出巨大潜力。然而由于RLVR过程中提供的信息有限,模型只能进行近乎盲目的探索,这往往导致其在复杂问题上失败。为了在不依赖教师模型的情况下为RLVR过程提供额外信息,我们提出A²D方法——一种增强RLVR效果的自适应能力分解策略。具体而言,我们首先通过无蒸馏的RLVR训练分解器,使其能将复杂问题分解为若干简单子问题;随后利用该分解器对训练集中的每个问题标注子问题,再基于子问题指导通过RLVR训练推理器。为深入理解A²D,我们首先将其与主流基线方法进行性能对比,证明其有效性;进而发现该方法可作为即插即用模块适配不同RLVR算法;最后通过对分解器的分析,揭示了RLVR过程如何影响其性能与行为,以及何种指导方式更能提升推理器的探索与利用能力。
基于多视角RGB图像的三维线框映射能够为场景提供紧凑且结构化的视觉表征。本研究从物理与拓扑视角切入:三维线条最自然地呈现为有限三维平面块的边界。我们提出LiP-Map——一种显式建模可学习线与平面基元的线-平面联合优化框架。这种耦合机制在保证高效重建(单场景通常仅需3-5分钟)的同时,实现了精确细致的三维线框映射。LiP-Map开创性地将平面拓扑融入三维线框映射,并非通过施加两两共面约束,而是通过显式构建平面与线基元间的相互作用,从而为人工环境中的结构化重建提供了理论依据。在ScanNetV2、ScanNet++、Hypersim、7Scenes和Tanks&Temple等数据集的超100个场景测试中,LiP-Map在线框映射的精度与完整性上均超越现有最优方法。除线框质量提升外,该框架还显著推进了线框辅助的视觉定位任务,在7Scenes数据集上建立了卓越性能。为实现可复现研究,我们已在https://github.com/calmke/LiPMAP开源代码。
近期研究表明,层剪枝技术能够在微调极少甚至无需微调的情况下,压缩大语言模型(LLMs)同时保持其在分类基准测试中的强劲性能。然而,现有剪枝方法在生成式推理任务上往往出现严重性能衰退。通过对多个模型系列的系统性研究,我们发现需要多步推理的任务对深度削减尤为敏感。除表层文本质量退化外,我们还观察到关键算法能力的衰减,包括数学推理中的算术运算能力与代码合成中的平衡括号生成能力。在现实的后训练约束条件下(即无法获取预训练规模的数据或算力),我们评估了一种基于自生成响应的监督微调简易缓解策略。该方法在分类任务上实现了强劲的性能恢复,可保持基线性能的90%,并在生成式基准测试中较现有后剪枝技术获得20-30个百分点的显著提升。但关键发现是:尽管取得这些进展,生成式推理任务的恢复效果相对于分类任务仍存在根本性局限,且主要适用于较低剪枝比率。总体而言,我们界定了层剪枝在生成式推理任务中的实际应用边界,并为在受限后训练机制下如何有效实施深度削减提供了实践指引。
知识蒸馏为将大型教师模型的推理能力迁移至高效学生模型提供了可行路径;然而现有的词级同策略蒸馏方法要求学生与教师模型保持词级对齐,这限制了学生模型的探索能力,阻碍了交互环境反馈的有效利用,并在强化学习中面临严重的内存瓶颈。我们提出同策略语言蒸馏(OVD)这一内存高效框架,通过采用教师模型提供的离散语言评分(0-9分)进行轨迹匹配,替代原有的词级概率匹配。OVD在实现基于语言反馈的同策略蒸馏的同时,将内存消耗显著降低,且无需词级对齐,使学生模型能够自由探索输出空间。在网页问答和数学推理任务上的大量实验表明,OVD显著优于现有方法——在网页问答任务上平均精确匹配率绝对提升最高达12.9%,在数学基准测试中(仅使用单次随机采样训练)最高提升达25.7%,同时展现出更优的训练效率。项目页面详见:https://OVD.github.io
推理时计算已成为提升大语言模型推理能力的实用方法。多数测试时扩展算法依赖自回归解码,这种机制与离散扩散语言模型的并行序列解码特性不相容。为充分释放dLLMs的生成潜力,开发高效测试时扩展方法仍是待探索的挑战。为此,我们提出Prism框架(剪枝、重掩码与集成自验证方法),该高效测试时扩展方案具备三大特性:(i)执行分层轨迹搜索,在去噪过程早中期动态剪枝并重新分配计算资源;(ii)引入局部分支与部分重掩码机制,在保留高置信度标记的同时探索多样化实现路径;(iii)通过中间结果的自评估提示获得自验证反馈,替代外部验证器。在LLaDA 8B Instruct、Dream 7B Instruct和LLaDA 2.0-mini三个dLLMs上进行的数学推理与代码生成实验表明,Prism以显著更少的函数评估次数实现了与最优N选性能相媲美的效能平衡。代码已发布于https://github.com/viiika/Prism。
尽管大语言模型(LLM)已成为人工智能领域的重要突破,但其训练所需的硬件与计算成本也构成了显著负担。在当前主流优化器中,AdamW依赖对角曲率估计而忽略结构特性,Muon则通过全局谱归一化牺牲了曲率信息。本研究重新审视了流形优化方法在LLM训练中的应用——传统流形优化方法因在大规模模型优化中表现不佳长期被忽视,而我们的方法有望同时克服上述两种优化器的局限。通过创新性地将动量投影至模型参数的切空间并约束于旋转斜交流形,我们提出了一种新颖、强大且高效的优化器**Mano**,首次弥合了流形优化与现代优化器之间的性能鸿沟。基于LLaMA和Qwen3模型的大规模实验表明,Mano在分别降低内存消耗与计算复杂度的前提下,仍能持续显著超越AdamW和Muon,从而在时空效率层面拓展了帕累托前沿。
扩散变换器是视频与图像生成的基础模型,但其注意力机制的二次计算复杂度成为效率瓶颈。虽然块稀疏注意力通过仅关注关键键值块来加速计算,但在高稀疏度下会因丢弃上下文信息导致性能下降。本研究首次发现非关键块的注意力分数具有分布稳定性,可通过高效近似替代直接丢弃,这一发现对稀疏注意力设计至关重要。基于此,我们提出无需训练的分段稀疏注意力方法PISA,该方法以次二次复杂度实现全注意力覆盖。与传统“保留或丢弃”范式不同,PISA创新性地采用“精确或近似”策略:对关键块保持精确计算,同时通过分块泰勒展开高效近似剩余部分。这种设计使PISA成为全注意力的高保真替代方案,有效平衡速度与质量。实验表明,在Wan2.1-14B和Hunyuan-Video模型上,PISA分别实现1.91倍和2.57倍加速,同时在稀疏注意力方法中保持最优质量。值得注意的是,即使在FLUX模型上进行图像生成,PISA也能在保持视觉质量前提下实现1.2倍加速。代码已开源:https://github.com/xie-lab-ml/piecewise-sparse-attention。
我们研究了表征几何与神经网络性能之间的关系。通过对13种架构家族的52个预训练ImageNet模型进行分析,发现有效维度——一种无监督几何度量指标——能强力预测模型精度。在控制模型容量后,输出有效维度达到偏相关系数r=0.75(p<10^(-10)),而总压缩率则呈现负相关(偏r=-0.72)。这一发现在ImageNet和CIFAR-10数据集上具有可复现性,并可推广至自然语言处理领域:有效维度能预测8个编码器模型在SST-2/MNLI任务中的性能,以及15个仅解码器大语言模型在AG News任务中的表现(r=0.69, p=0.004),而模型规模则无此预测能力(r=0.07)。我们确立了双向因果关系:通过噪声干扰降低几何质量会导致精度下降(r=-0.94, p<10^(-9)),而通过主成分分析改善几何结构可在保持95%方差的前提下维持各架构精度(仅下降0.03个百分点)。这种关系具有噪声类型无关性——高斯噪声、均匀噪声、丢弃噪声和椒盐噪声均显示|r|>0.90。这些结果表明,有效维度能提供与领域无关的神经网络性能预测信息和因果信息,且完全无需标签即可计算。
强化学习已成为大型语言模型后训练的核心技术,但主流算法依赖的裁剪机制会在大规模应用中引发优化问题,包括零梯度区域、奖励破解和训练不稳定性。我们提出无裁剪策略优化(CFPO)方法,通过基于全变分散度约束推导出的凸二次惩罚项替代启发式裁剪,构建出处处可微的目标函数,在无需硬边界的情况下实现稳定的策略更新。我们在推理和对齐两种场景下评估CFPO:在推理任务中,CFPO在下游基准测试中与基于裁剪的方法表现相当,同时拓展了稳定训练区间;在对齐任务中,CFPO有效抑制了冗余表达利用现象,减轻了能力退化问题,并保持了具有竞争力的指令遵循性能。CFPO仅需单行代码修改且无需新增超参数。实验结果表明,CFPO是替代基于裁剪的LLM后训练方法的有前景的即插即用方案。
现有工具集成推理(TIR)模型虽能通过集成外部工具有效扩展大语言模型的问答能力,但现实场景中大量开放性问题往往超出固定工具的处理范围。同时,由于缺乏自优化机制,错误的工具输出易误导大语言模型的决策。此外,现有工具的构建需耗费大量人工成本,制约了其应用广度。基于大语言模型的推理轨迹隐含问题解决能力的洞见,我们提出UCT——一种无需训练的新型框架,将智能体从工具使用者转变为工具创造者。该方法通过积累推理经验并将其提炼为可复用资产,实现推理过程中的自适应工具创建与自我更新。我们还引入了记忆固化机制来维护工具库,确保保留的经验记忆在后续推理任务中具有高复用性。这种创新的自动化工具构建范式能在推理过程中持续提升工具质量,使整体智能体系统无需额外训练即可持续进化。大量实验表明,我们的方法为增强TIR模型能力提供了新范式。在多领域数学与科学推理基准测试中取得的显著性能提升(+20.86%↑和+23.04%↑),尤其验证了智能体的自我进化能力。
在现实场景中,具备文化意识的防护机制对AI对齐至关重要——此时安全性已超越常识范畴,需涵盖多元的地方价值观、社会规范及区域性法规。然而受限于资源匮乏与本土标注人员稀缺,构建大规模文化根基数据集面临挑战。这导致多数防护模型依赖英语数据集的机器翻译结果,往往遗漏地域文化特质。我们提出一种新型智能体数据生成框架,可规模化创建针对东南亚地区的本土化安全数据集。基于此,我们推出SEA-Guard系列模型——首个植根于东南亚文化背景的多语言防护模型。经多基准测试与文化变体评估,SEA-Guard在检测区域敏感性或有害内容方面持续优于现有防护模型,同时保持卓越的通用安全性能。
强化学习虽能增强大型语言模型的推理能力,但由于其依赖大量试错迭代的优化过程,往往伴随着高昂的计算成本。在线提示选择通过优先筛选信息量丰富的提示来提升训练效率,为此提供了可行解决方案。然而现有方法要么依赖计算密集的精确评估,要么构建仅适用于特定提示的预测模型,缺乏跨提示的泛化能力。本研究提出可泛化预测式提示选择框架(GPS),该框架基于共享优化历史训练轻量级生成模型,通过贝叶斯推断预测提示难度。该方法将中等难度优先原则与历史锚定的多样性策略融入批量获取机制,从而筛选出信息量最大的提示批次。轻量化预测模型在测试阶段同样具备泛化能力,可实现高效计算资源分配。在多类推理基准测试上的实验表明,GPS在训练效率、最终性能及测试效率方面均显著优于现有先进基线方法。
引言:不同行为主体和利益相关方群体对人工智能伦理的界定存在显著差异。本文通过OpenAI案例研究,分析其人工智能伦理论述的演变轨迹。研究方法:我们聚焦以下核心问题——OpenAI如何随时间推移在公开论述中运用"伦理""安全""对齐"及相邻概念?这些论述如何反映其实际伦理框架?通过整理公开文档,我们构建了区分大众传播与学术传播的结构化语料库。分析过程:采用质性内容分析法,结合归纳推导与演绎应用的编码规则对伦理主题进行解析;同时运用自然语言处理技术进行量化内容分析,通过主题建模和修辞演变计量呈现可视化结果。为保障研究可复现性,相关代码已发布于https://github.com/famous-blue-raincoat/AI_Ethics_Discourse。研究结果:数据显示安全与风险论述在OpenAI的公开传播中占据主导地位,但并未采用学术界及倡导机构惯用的伦理框架或术语体系。结论部分:本文阐述了该发现对治理机制的启示,并就产业界存在的"伦理洗白"现象展开讨论。
大型语言模型(LLMs)正日益被用作评估智能体性能的裁判,尤其在不可验证场景下——这类场景的判断需依赖包含思维链(CoT)推理在内的智能体行为轨迹。该范式隐含着一个假设:智能体的思维链能忠实反映其内部推理过程及底层环境状态。我们证明这一假设具有脆弱性:LLM裁判极易受到智能体推理痕迹的操控。通过系统性地重写智能体思维链同时固定其行动与观察结果,我们在涵盖多样化网络任务的800条行为轨迹上发现,仅凭被篡改的推理就可使最先进的VLM裁判的误判率最高提升90%。我们研究了两种操控策略:仅改变推理表达形式的风格型操控,以及伪造任务进展信号的内容型操控,结果表明内容型操控始终更具效力。针对基于提示的技术与增加裁判时计算资源的方案进行评估后,发现这些方法虽能降低但对操控的敏感性无法完全消除。我们的研究揭示了基于LLM评估机制的根本性漏洞,并强调需要建立能通过可观测证据验证推理主张的裁判机制。
基于深度学习的现代图像修复技术能够实现逼真的局部图像操控,这对可靠检测提出了严峻挑战。我们发现当前检测器主要依赖作为修复副产物出现的全局伪影,而非局部合成内容。研究表明,这种特性源于VAE重建过程引发的微妙但普遍存在的频谱偏移,该偏移会波及包括未编辑区域在内的整幅图像。为分离该效应,我们提出修复交换操作(INP-X),该操作能在保留所有合成内容的同时,恢复编辑区域外的原始像素。我们构建了包含9万张真实图像、修复图像及交换图像的测试集以评估该现象。在此干预下,包括商业检测器在内的预训练最优模型准确率急剧下降(如从91%降至55%),常趋近随机猜测水平。理论分析表明该现象与VAE信息瓶颈导致的高频衰减相关。研究结果凸显了内容感知检测的必要性:使用本数据集训练的模型相比标准修复数据具有更优的泛化能力和定位精度。数据集与代码已公开于https://github.com/emirhanbilgic/INP-X。
多智能体系统已成为自动化科学发现的重要范式。为区分系统中各智能体的行为,现有框架通常采用"评审员"或"撰稿人"等通用角色设定,或依赖粗粒度的关键词标签。这种方法虽具功能性,但过度简化了科学家的真实工作方式——人类科学家的贡献往往由其独特的研究轨迹塑造。为此,我们提出INDIBATOR分子发现框架,通过两种模态为智能体构建个性化科学家档案:基于文献知识的发表历史记录和基于结构先验的分子研究历史。这些智能体通过提案、批判和投票三个阶段展开多轮辩论。评估结果表明,基于细粒度个体特征的智能体系统持续优于粗粒度角色设定方案,达到具有竞争力或最先进的性能。这些发现验证了捕捉个体智能体的"科学DNA"对实现高质量科学发现至关重要。
通用开放域稠密检索系统通常使用海量混合语料库和搜索任务进行训练。针对这些异构语料库和任务,应当如何制定训练采样策略?传统方法通常采用均匀采样、按实例数量比例采样或依赖专家监督的方式。众所周知,训练数据采样策略会显著影响模型性能,但在嵌入模型领域如何寻找最优策略尚未得到充分研究。我们提出Inf-DDS——一种基于强化学习的自适应采样框架,该框架通过影响力驱动的奖励信号动态调整训练数据集权重,且GPU计算资源消耗显著降低。我们的技术通过迭代优化采样策略,优先选择能最大化目标开发集模型性能的数据集。我们在多种文本检索任务上验证了该采样策略的有效性,结果表明相较于现有基于梯度的采样方法,我们的方法在检索性能上实现显著提升并具有更好的适应性,同时GPU计算成本降低1.5至4倍。在训练多语言bge-m3模型时,我们的采样策略实现了NDCG@10指标5.03的绝对提升;在训练all-MiniLM-L6-v2模型时,即使从专家预设权重的海量训练数据集出发,仍实现了NDCG@10指标0.94的绝对提升。
大型语言模型(LLM)的跨语言评估通常混淆了两个变异源:真实的模型性能差异与测量不稳定性。我们通过固定生成条件、变换目标语言来研究评估可靠性。利用在爱沙尼亚语、芬兰语和匈牙利语中采用相同参数生成的合成客服对话数据,我们检验自动指标与LLM即评委评分能否在这三种形态丰富的亲属芬兰-乌戈尔语系语言间产生稳定的模型排序。以少量爱沙尼亚语母语者标注为参照,我们发现系统性的排序不稳定性:表层指标(词汇多样性、表层及语义相似度)保持跨语言稳定性,但语用判断(连贯性、指令遵循度)出现排序倒置和接近零相关性。由于生成参数受控,这些不一致反映的是评委评分跨语言行为的差异,而非真实的模型差距。 这一受控实验设计提供了诊断工具:在相同生成条件下无法保持稳定性的评估方法,预示着部署前存在迁移失败风险。我们的研究结果表明,零样本评委迁移对于形态丰富语言的语篇级评估不可靠,亟需针对特定语言参照人工基线进行校准。我们在https://github.com/isaac-chung/cross-lingual-stability-judges 发布了受控生成方案、合成数据与评估框架,以支持跨语系复现研究。
本文提出YOLOE-26——一个将部署优化的YOLO26(或称YOLOv26)架构与YOLOE开放词汇学习范式相融合的实时开放词汇实例分割统一框架。该方法基于YOLOv26无需非极大值抑制的端到端设计,在保留YOLO系列标志性高效性与确定性的同时,将能力拓展至封闭集识别之外。YOLOE-26采用卷积主干网络配合PAN/FPN风格的多尺度特征聚合,后接端到端回归与实例分割头。其核心架构创新在于使用物体嵌入头替代固定类别逻辑值,将分类任务转化为与文本描述、视觉示例或内置词汇表生成的提示嵌入进行相似度匹配。为实现高效开放词汇推理,框架集成了零开销文本提示的可重参数化区域-文本对齐模块、示例引导分割的语义激活视觉提示编码器,以及免提示推理的惰性区域提示对比机制。所有提示模式均在统一物体嵌入空间中运行,支持文本提示、视觉提示与全自主分割模式的无缝切换。大量实验表明,该模型在不同规模下均表现出稳定的扩展性,并在提示/免提示场景中均取得优异的精度-效率平衡。训练策略通过多任务优化利用大规模检测与定位数据集,且完全兼容Ultralytics生态的训练、验证与部署流程。总体而言,YOLOE-26为动态现实场景中的实时开放词汇实例分割提供了实用可扩展的解决方案。
储层计算(RC)已成为时序处理的高效范式,但其可扩展性仍受两大因素严重制约:(i)时序数据必须顺序处理的要求;(ii)高维储层内存占用量过大。本研究通过结构化算子和状态空间建模的视角重新审视RC,提出并行回声状态网络(ParalESN)以突破这些限制。ParalESN基于复数空间中的对角线性递归构建高效高维储层,实现时序数据的并行处理。理论分析表明,ParalESN在保持回声状态特性和传统回声状态网络普适性保证的同时,能够将任意线性储层等价表示为复数对角形式。实验验证显示,ParalESN在时间序列基准测试中达到与传统RC相当的预测精度,且计算效率显著提升。在一维像素级分类任务中,ParalESN在实现与全可训练神经网络相媲美的精度的同时,将计算成本和能耗降低数个数量级。总体而言,ParalESN为在深度学习领域集成RC提供了一条具有前景的可扩展原则化路径。
隐式神经表示(INR)已在多个领域被证明具有高精度与高效性。本研究探索了如何将不同神经网络设计为新型纹理INR,该表示在输入UV坐标空间上以连续方式而非离散方式运行。通过系统实验,我们证明这些INR在图像质量方面表现优异,同时具备理想的内存使用效率和渲染推理速度。本文深入分析了这些性能指标间的平衡关系,并进一步探究了实时渲染及相关下游任务中的多种应用场景,例如Mipmap拟合与INR空间生成。
大型语言模型生成的流畅回答可能偏离给定语境,而现有防护措施多依赖生成后的外部验证或独立判别器。我们提出一种基于内部流特征的方法,通过固定块间监测边界上的深度动态来审计决策形成过程。该方法采用偏置中心监测稳定词元级运动,随后在紧凑的移动读取对齐子空间内汇总轨迹——这些子空间由每个深度窗口内的顶级词元及其紧邻竞争者构建。通过正交传输对齐相邻窗口帧,生成可跨深度比较的传输步长、转向角及子空间漂移摘要,这些指标对窗口内基向量选择具有不变性。基于这些特征训练的轻量级GRU验证器可实现不修改基础模型的自我核查。除检测功能外,该验证器能定位问题深度事件并实现靶向优化:模型回滚至问题词元,在识别出的模块处钳制异常传输步长,同时保持正交残差不变。该流程通过内部决策动态实现了可操作的定位与低开销自我核查。代码详见github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs。
我们提出抛物线位置编码(PaPE),一种基于抛物线函数、专为基于注意力架构的视觉模态设计的位置编码方法。针对图像、点云、视频或事件相机流等视觉标记集合,我们的目标是在编码其位置信息时充分考虑视觉模态的特性。现有研究大多将语言模型中一维序列的位置编码扩展至视觉领域的n维结构,但仅部分兼顾了视觉特性。我们通过从既往研究中提炼的设计原则来填补这一空白:平移不变性、旋转不变性(PaPE-RI)、距离衰减性、方向感知性和上下文感知性。我们在涵盖4种模态的8个数据集上评估PaPE,发现PaPE或PaPE-RI在7个数据集上均取得最优性能。ImageNet-1K上的外推实验表明,PaPE具有卓越的外推能力,其绝对性能较次优位置编码最高可提升10.5%。代码已发布于https://github.com/DTU-PAS/parabolic-position-encoding。
尽管基于大语言模型的自动评估方法已被广泛采用,但现有验证实践主要停留在观测输出层面,难以深入揭示大语言模型评判器是否具备稳定可靠的测量工具特性。为突破这一局限,我们基于项目反应理论提出了两阶段诊断框架,用于评估大语言模型评判器的可靠性。该框架采用IRT中的分级反应模型,从两个互补维度对可靠性进行形式化定义:(1)内在一致性,即提示词变化下测量行为的稳定性;(2)人类对齐度,反映与人类质量评估的吻合程度。我们通过该框架对多种大语言模型评判器展开实证研究,结果表明利用IRT-GRM可产生可解释的信号,从而系统化诊断评判质量。这些信号为验证大语言模型评判器的可靠性及识别不可靠性的潜在成因提供了实践指导。