每日精選AI研究論文及翻譯
基於大型語言模型建構的多代理系統的興起,為可擴展的集體智慧與自我演化提供了一個前景廣闊的範式。理想情況下,這類系統應能在完全閉環中實現持續自我改進,同時保持穩健的安全對齊——我們將這種組合稱為「自我演化三重困境」。然而,我們從理論與實證兩方面證明,要同時滿足持續自我演化、完全隔離性與安全不變性的代理社會是不可能的。藉助資訊理論框架,我們將安全性形式化為與人類價值分佈的偏離程度,並從理論上論證隔離式自我演化會誘發統計盲點,導致系統安全對齊出現不可逆的退化。來自開放式代理社群(Moltbook)及兩個封閉式自演化系統的實證與質性結果,均呈現出與我們理論預測相符的必然安全侵蝕現象。我們進一步提出多個解決方向以緩解此安全隱患。本研究確立了自演化人工智慧社會的根本限制,將討論焦點從症狀導向的安全修補轉向對內在動態風險的原則性理解,並凸顯外部監管或新型安全維護機制的必要性。
大規模可驗證提示是強化學習與可驗證獎勵(RLVR)成功的基礎,但其中包含大量無信息量的樣本,且進一步擴充成本高昂。近期研究聚焦於更有效利用有限訓練數據,優先處理通過率為0的困難提示。然而隨著訓練推進,通過率為1的簡單提示也日益普遍,反而縮減了有效數據規模。為緩解此問題,我們提出Composition-RL——一種針對通過率為1提示的簡潔有效方法,能更好地利用有限的可驗證提示。具體而言,該方法自動將多個問題組合為新的可驗證題目,並將這些組合提示用於強化學習訓練。在4B至30B不同模型規模上的廣泛實驗表明,Composition-RL相較於原始數據集訓練的強化學習能持續提升推理能力。若採用逐步增加組合深度的課程學習變體,性能可進一步提升。此外,通過組合來自不同領域的提示,Composition-RL能實現更有效的跨領域強化學習。相關代碼、數據集與模型已開源於:https://github.com/XinXU-USTC/Composition-RL。
当前用于图像生成与编辑的统一多模态模型通常依赖海量参数规模(例如超过100亿参数),导致训练成本与部署资源难以承受。本研究推出DeepGen 1.0——一个仅需50亿参数的轻量化统一模型,其综合能力可媲美甚至超越规模更大的同类模型。为克服紧凑模型在语义理解与细粒度控制方面的局限,我们提出堆叠通道桥接技术(SCB),该深度对齐框架通过从视觉语言模型的多层网络中提取层次化特征,并与可学习的"思维标记"进行融合,为生成主干网络提供结构化、富含推理逻辑的引导。我们进一步设计了以数据为核心的渐进式三阶段训练策略:(1)基于大规模图文对与编辑三元组的对齐预训练,实现视觉语言模型与扩散Transformer的表征同步;(2)在高质量混合任务集(涵盖生成、编辑与推理任务)上进行联合监督微调,以培养全场景能力;(3)采用混合奖励引导策略优化的强化学习(MR-GRPO),通过融合多类奖励函数与监督信号,在保持训练稳定性、避免视觉伪影的同时,显著提升生成质量与人类偏好对齐度。尽管仅使用约5000万样本进行训练,DeepGen 1.0在多项基准测试中表现领先:在WISE基准上超越800亿参数的HunyuanImage达28%,在UniREditBench基准上超越270亿参数的Qwen-Image-Edit达37%。通过开源训练代码、模型权重及数据集,我们为统一多模态研究提供了高效、高性能的民主化替代方案。
直接根據當前觀測預測多步動作塊的視覺-語言-動作模型,因受限的場景理解能力和薄弱的前瞻預測能力而存在固有局限。相比之下,基於網路規模影片語料庫預訓練的影片世界模型展現出強大的時空推理能力與精準的未來預測性能,使其成為增強VLA學習的自然基礎。為此,我們提出GigaBrain-0.5M*——一款通過基於世界模型的強化學習訓練的VLA模型。該模型基於GigaBrain-0.5構建(其預訓練數據包含逾10,000小時機器人操作數據,其中間版本目前位居國際RoboChallenge基準榜首),並進一步通過RAMP(基於世界模型條件策略的強化學習)整合世界模型強化學習機制,實現強健的跨任務適應能力。實證結果表明,RAMP相較RECAP基線取得顯著性能提升,在衣物摺疊、箱體打包與咖啡製作等高難度任務中實現約30%的改進。關鍵在於,GigaBrain-0.5M*展現出可靠的長時程執行能力,經由我們專案頁面(https://gigabrain05m.github.io)展示的實際部署影片驗證,可持續完成複雜操作任務且零失誤。
同策略蒸餿(OPD)透過讓學生模型在自身生成的軌跡上對齊教師模型的對數分佈,已在提升學生模型效能方面展現出顯著的實證優勢,其表現往往優於異策略蒸餿與強化學習(RL)範式。本研究首先從理論層面證明:OPD實為稠密KL約束強化學習的特例,其中獎勵函數與KL正則化的權重恆定相等,且參考模型可為任意模型。據此,我們提出廣義同策略蒸餿(G-OPD)框架,透過引入靈活的參考模型與控制獎勵項相對KL正則化權重的獎勵縮放因子,擴展了標準OPD的目標函數。在數學推理與程式碼生成任務的全面實驗中,我們獲得兩項新發現:(1)將獎勵縮放因子設定大於1(即獎勵外推法,稱之為ExOPD),能在多種師生模型規模配對下持續優於標準OPD。特別是在將經領域特定RL訓練的同一學生模型所獲得的各領域專家知識融合回原始學生模型時,ExOPD能使學生模型突破教師模型的效能邊界,表現超越領域專家教師。(2)基於ExOPD,我們進一步發現:在強弱模型蒸餿情境(即從較大教師模型蒸餿較小學生模型)中,選擇教師模型在RL訓練前的基礎模型作為參考模型進行獎勵校正,可產生更精確的獎勵信號並進一步提升蒸餿效能。但此方法需取得教師模型的預訓練版本且會增加計算負擔。我們的研究期望能為未來OPD相關研究提供新的思路。
離散音訊標記器是賦予大型語言模型原生音訊處理與生成能力的關鍵基礎。儘管近期有所進展,現有方法往往依賴預訓練編碼器、語義蒸餾或異構的卷積神經網路架構。這些設計引入了固定的歸納偏置,限制了重建保真度並阻礙了有效擴展。本文主張離散音訊標記化應採用同構且可擴展的架構進行完全端到端學習。為此,我們首先提出CAT(基於Transformer的因果音訊標記器),這是一種純Transformer架構,能從頭開始聯合優化編碼器、量化器和解碼器以實現高保真重建。基於CAT架構,我們進一步開發了MOSS-Audio-Tokenizer——一個擁有16億參數的大規模音訊標記器,並在300萬小時的多元通用音訊數據上進行預訓練。我們證明這種基於同構因果Transformer模塊的簡潔端到端方法具備優雅的擴展性,能在各類音訊領域實現高保真重建。在語音、環境聲和音樂場景中,MOSS-Audio-Tokenizer在廣泛碼率範圍內持續超越現有編解碼器,同時展現出隨規模擴大的可預測性能提升。值得注意的是,利用本模型的離散標記,我們開發出首個純自回歸文本轉語音模型,其性能超越先前非自回歸與級聯系統。此外,MOSS-Audio-Tokenizer無需輔助編碼器即可實現競爭性的自動語音識別性能。我們的研究成果將CAT架構確立為新一代原生音訊基礎模型的統一可擴展接口。
为长视频合成连贯配乐仍是一项艰巨挑战,目前受限于三大关键障碍:计算可扩展性、时序连贯性,以及最关键的——对叙事逻辑动态演变的普遍语义盲区。为突破这些限制,我们提出NarraScore框架,其核心思想在于将情感视为叙事逻辑的高密度压缩表达。我们创新性地利用冻结式视觉语言模型作为连续情感感知器,将高维视觉流蒸馏为稠密的叙事感知效价-唤醒轨迹。在机制设计上,NarraScore采用双分支注入策略协调全局结构与局部动态:全局语义锚点确保风格稳定性,而精准的令牌级情感适配器通过直接元素残差注入调控局部张力。这种极简设计绕过了稠密注意力与架构复制的瓶颈,有效缓解了数据稀缺导致的过拟合风险。实验表明,NarraScore以可忽略的计算开销实现了最先进的连贯性与叙事对齐度,为长视频配乐生成建立了全自动范式。
法律推理不僅要求結果正確,更需要符合程序規範的推理過程。然而現有方法缺乏對中間推理步驟的驗證機制,導致如法條引用不當等錯誤能在推理鏈中未被察覺地傳播。為解決此問題,我們提出LawThinker——一種採用「探索-驗證-記憶」策略的自主法律研究智能體,專為動態司法環境設計。其核心思想是將驗證作為每次知識探索後的原子化操作:DeepVerifier模組從知識準確性、事實與法律關聯性、程序合規性三個維度審查每個檢索結果,並通過記憶模組實現跨輪次知識複用以應對長週期任務。在動態基準J1-EVAL上的實驗表明,LawThinker相比直接推理方法提升24%,較基於工作流的方法提升11%,且在過程導向指標上表現尤為突出。在三個靜態基準上的進一步驗證證實了其泛化能力。代碼已開源於https://github.com/yxy-919/LawThinker-agent。
現有多模態大型語言模型已實現高保真度的視覺感知與探索性視覺生成。然而在複雜推理任務中仍存在精確度悖論:光學感知系統能轉錄符號卻無法捕捉邏輯拓撲結構,而基於像素的生成模型會產生缺乏數學精確度的視覺偽影。為彌合此鴻溝,我們提出將視覺輸入的推理重新概念化為光學解壓縮——從壓縮視覺標記重建潛在邏輯結構的過程。以「解析即推理」為指導公理,我們引入「草稿式思維」框架,採用極簡領域特定語言作為基礎中間表徵。有別於直接幻覺化生成答案的標準方法,該框架強制模型將其心智模型草擬為可執行程式碼,生成確定性視覺證明以進行自我驗證。為驗證此方法,我們提出視覺代數基準測試集VisAlg。實驗表明,草稿式思維可作為優越的認知支架。本研究建立了一個閉環系統,使視覺生成不再作為創造性輸出,而是充當邏輯驗證器,為視覺推理提供可泛化的路徑。
要实现有效的测试时扩展,模型需具备情境探索能力——即在单一连续语境中生成、验证并优化多重推理假设的内在能力。基于状态覆盖理论的分析发现,实现该能力存在关键瓶颈:虽然更广的状态覆盖需要更长的推理轨迹,但在自回归生成过程中采样此类序列的概率会呈指数级衰减,这一现象被我们称为"浅层探索陷阱"。 为突破此局限,我们提出长度激励探索法。该方案通过长度奖励与冗余惩罚相结合的简单而有效的机制,显式激励模型进行更广泛探索,从而以双阶段方式实现状态覆盖最大化。跨模型(Qwen3、Llama)的综合实验表明,本方法能有效促进情境探索能力。实验结果显示,该方法在领域内任务上平均提升4.4%,在领域外基准测试中获得2.7%的性能增益。
尽管模型容量与数据获取能力持续提升,视觉-语言-动作模型在接触密集型动态操作任务中仍显脆弱——细微的执行偏差会累积导致任务失败。虽然强化学习为提升鲁棒性提供了理论路径,但物理世界中的同策略强化学习受限于安全风险、硬件成本与环境重置难题。为弥合这一鸿沟,我们提出RISE框架:基于想象机制的机器人强化学习可扩展方案。其核心是组合式世界模型,该模型具备双重功能:(i)通过可控动力学模型预测多视角未来状态;(ii)利用进程价值模型评估想象结果,为策略改进生成信息量丰富的优势函数。这种组合设计使得状态与价值评估能采用最适合且相互独立的架构与目标函数。这些组件被整合至闭环自优化流程中,可持续生成虚拟推演、估算优势函数,并在虚拟空间更新策略,无需耗费成本的物理交互。在三大具挑战性的现实任务中,RISE相较现有技术实现显著提升:动态积木分拣任务绝对性能提高35%以上,背包整理任务提升45%,箱体关闭任务提升35%。
傳統視覺錯覺主要依賴多視角一致性等空間操控技術。本研究提出「漸進語義錯覺」——一種新穎的向量素描任務,通過逐筆添加筆劃實現單幅素描的語義劇變。我們開發了Stroke of Surprise生成框架,通過優化向量筆劃使同一素描在不同繪製階段呈現截然不同的語義解讀。核心挑戰在於「雙重約束」:初始前綴筆劃既要構成連貫物體(如鴨子),又需作為添加增量筆劃後第二概念(如綿羊)的結構基礎。為此,我們提出由雙分支分數蒸餾採樣機制驅動的序列感知聯合優化框架。有別於凍結初始狀態的序列方法,我們的技術能動態調整前綴筆劃,探索對兩個目標均有效的「共通結構子空間」。此外,我們創新性地引入疊加損失函數來強化空間互補性,確保結構融合而非簡單遮擋。大量實驗表明,本方法在可識別性與錯覺強度上顯著超越現有基準方案,成功將視覺字謎從空間維度拓展至時間維度。項目頁面:https://stroke-of-surprise.github.io/
传统上,高可靠性长周期机器人操作依赖于大规模数据和计算资源来理解复杂现实世界的动态特性。然而,我们发现实现现实世界鲁棒性的主要瓶颈不仅在于资源规模,更在于人类示范数据分布、策略学习所得的归纳偏置以及测试执行分布之间的分布偏移——这种系统性不一致会导致多阶段任务中出现误差累积。为缓解这些不一致性,我们提出χ₀框架,该资源高效型框架通过专门设计的有效模块实现生产级鲁棒性的机器人操作。我们的方法基于三大技术支柱:(i) 模型算术——一种权重空间融合策略,能高效吸收从物体外观到状态变化的多样化示范数据分布;(ii) 阶段优势值——具有阶段感知能力的优势估计器,可提供稳定、密集的进度信号,克服了先前非阶段方法的数值不稳定性;(iii) 训练-部署对齐——通过时空增强、启发式DAgger修正和时序分块平滑来弥合分布差距。χ₀使两组双臂机器人能协作完成长周期衣物操作任务,涵盖从铺平、折叠到悬挂不同衣物的全过程。我们的方法展现出高可靠性自主能力:系统能从任意初始状态连续不间断运行24小时。实验验证表明,χ₀仅用20小时数据和8块A100 GPU,其成功率就超越最先进的π₀.5近250%。我们将公开代码、数据及模型以促进社区发展。
人類示範數據具有豐富的環境多樣性且能自然擴展規模,因此成為機器人遙操作的理想替代方案。儘管該範式已推動機械臂操控技術的發展,但其在更具挑戰性、數據需求更大的人形機器人移動操控領域的潛力仍待探索。我們提出EgoHumanoid框架——首個利用海量第一視角人類示範數據與有限機器人數據協同訓練視覺-語言-動作策略的系統,使人形機器人能夠在多樣化真實環境中執行移動操控任務。為彌合人類與機器人之間的具身差異(包括物理形態和視角差異),我們建立了從硬件設計到數據處理的系統化對齊流程:開發便攜式可擴展人類數據採集系統,制定實用採集協議以提升遷移性。該人形對齊流程的核心包含兩個關鍵組件:視角對齊通過消除攝像頭高度與透視差異來降低視覺域差異;動作對齊將人類運動映射至統一且運動學可行的人形機器人控制空間。大量實物實驗表明,引入無機器人參與的第一視角數據可使性能較純機器人基準提升51%,尤其在未見環境中表現突出。我們的分析進一步揭示了哪些行為可有效遷移,以及人類數據規模化應用的潛力。
扩散大语言模型(dLLMs)代表了超越自回归建模的新范式,在保持竞争力性能的同时,天然支持灵活的解码过程。具体而言,dLLMs能够并行生成任意位置的词元,这赋予了它们在测试时并行扩展方面的巨大潜力——而此前自回归建模因效率低下而严重受限。本研究提出dVoting技术,这是一种无需训练即可增强推理能力的快速投票方法,仅需付出可接受的计算开销。该技术的灵感来源于以下发现:对于同一提示的多个生成样本,大部分词元预测保持稳定,而模型性能实际上由少数存在跨样本差异的关键词元决定。借助dLLMs的任意位置生成能力,dVoting通过采样执行迭代优化:首先进行一致性分析识别不确定词元,随后通过投票机制重新生成这些词元,并循环该过程直至收敛。大量实验表明,dVoting在多个基准测试中均能稳定提升性能:GSM8K数据集提升6.22%-7.66%,MATH500提升4.40%-7.20%,ARC-C提升3.16%-14.84%,MMLU提升4.83%-5.74%。代码已开源:https://github.com/fscdc/dVoting
我们推出Voxtral Realtime——一款原生流式自动语音识别模型,在亚秒级延迟下即可达到离线转录质量。与通过分块或滑动窗口适配离线模型的方法不同,Voxtral Realtime专为流式处理进行端到端训练,实现了音频流与文本流的显式对齐。我们的架构基于延迟流建模框架,创新性地引入因果音频编码器和自适应RMS归一化技术以优化延迟调节。通过覆盖13种语言的大规模数据集进行预训练扩展,该模型在480毫秒延迟条件下,其性能可与目前部署最广泛的离线转录系统Whisper相媲美。本模型权重已依据Apache 2.0许可协议开源发布。
为何视觉语言导航必须依赖详尽繁琐的语言指令?虽然这种细节描述能简化决策过程,却与真实世界导航的根本目标背道而驰。理想情况下,智能体应具备在未知环境中仅凭简单高层意图自主导航的能力。实现这一愿景带来了严峻挑战:超视野导航(BVN)要求智能体在没有密集逐步指引的情况下定位远处不可见的目标。现有基于大语言模型的方法虽擅长遵循细致指令,却因依赖短视域监督而常出现短视行为。但若简单扩展监督视域,又会破坏大语言模型训练的稳定性。本研究首次发现视频生成模型天生具备通过长视域监督与语言指令对齐的优势,使其特别适用于BVN任务。基于这一洞见,我们首次将视频生成模型引入该领域。然而生成数十秒视频的惊人延迟使得实际部署难以实现。为此我们提出SparseVideoNav,通过生成跨越20秒视域的稀疏未来轨迹实现亚秒级路径推断,相比未优化版本获得27倍的惊人加速。大量真实场景零样本实验表明,SparseVideoNav在BVN任务上的成功率达到顶尖大语言模型基线的2.5倍,并首次在极具挑战性的夜间场景中实现此类能力。
随着大模型技术的飞速发展,其安全性问题日益受到重视。当前大语言模型及多模态大语言模型的安全工作流程中,评估、诊断与对齐往往由独立工具完成。具体而言,安全评估仅能定位外部行为风险而无法探究内部根源;安全诊断则常脱离具体风险场景,停留在可解释性层面。这种方式使得安全对齐缺乏对内部机制变化的专项解释,可能导致模型通用能力下降。为系统解决这些问题,我们提出开源项目DeepSight,实践评估-诊断一体化的新范式。该项目作为低成本、可复现、高效率且高扩展性的大模型安全评估体系,由评估工具集DeepSafe与诊断工具集DeepScan构成。通过统一任务与数据协议,我们建立了两个阶段的关联,实现了安全评估从黑盒到白盒的洞察。此外,DeepSight是首个支持前沿AI风险评估、兼具安全评估与联合诊断能力的开源工具包。
电子商务产品理解本质上要求具备从文本、图像和结构化属性中提取信息的强大多模态理解能力。通用视觉语言模型虽能实现可泛化的多模态潜在建模,但如何在保持通用性能的前提下,使其适应电子商务数据以属性为中心、多图像和含噪声的特性,目前尚未形成系统化且广为人知的适配策略。本研究通过大规模实验表明,对通用视觉语言模型进行针对性适配可显著提升电商场景性能,同时保持广泛的多模态能力。此外,我们提出了一套创新的综合评估体系,涵盖深度产品理解、严格指令遵循及动态属性提取三大维度。
我们推出Gaia2——一个在异步现实环境中评估大语言模型智能体的基准测试平台。与以往静态或同步评估不同,Gaia2引入了环境独立于智能体行动自主演化的场景,要求智能体在时间约束下运行,适应嘈杂动态事件,解决模糊性问题,并与其他智能体进行协作。每个场景都配有写入式验证器,支持细粒度的行动级评估,使Gaia2可直接用于基于可验证奖励的强化学习。我们对顶尖专有模型和开源模型的评估表明:GPT-5(高配版)以42%的pass@1得分位居综合榜首,但在时间敏感任务中表现不佳;Claude-4 Sonnet模型在精度与速度间权衡以控制成本;开源模型中Kimi-K2以21%的pass@1领先。这些结果揭示了推理能力、效率、鲁棒性之间的根本性权衡,并凸显了缩小"仿真到现实"差距的挑战。Gaia2基于消费级环境构建,采用开源智能体研究环境平台,设计具备易扩展性。通过将Gaia2与基础ARE框架同步开源,我们旨在为学界提供灵活的基础设施,用于开发、评估和训练下一代实用智能体系统。
人工智能视频生成领域正经历关键转型:从依赖大量提示工程和"优选筛选"的通用生成,转向精细化可控生成与高保真后处理。在专业AI辅助影视制作中,实现精准定向修改至关重要。这一转变的核心在于视频实例插入技术——需将特定对象植入既有镜头的同时保持场景完整性。与传统视频编辑不同,该任务需满足多重要求:精确的时空定位、物理一致的场景交互、原始动态特性的忠实保留,且需以最小用户操作实现。本文提出PISCO,一种支持任意稀疏关键帧控制的精准视频实例插入扩散模型。用户可通过指定单帧、起止帧或任意时间戳的稀疏关键帧,自动传播物体外观、运动及交互特征。针对预训练视频扩散模型因稀疏条件引发的严重分布偏移问题,我们引入可变信息引导实现鲁棒条件控制,采用分布保持时序掩码稳定时序生成,并结合几何感知条件化实现真实场景适配。进一步构建PISCO-Bench基准数据集,包含已验证的实例标注与配对纯净背景视频,采用基于参考与无参考感知指标进行评估。实验表明,在稀疏控制条件下PISCO持续优于强基线视频修复与编辑方法,且随控制信号增加呈现清晰单调的性能提升。项目页面:xiangbogaobarry.github.io/PISCO。
基于可验证奖励的强化学习(RLVR),特别是GRPO方法,已成为激发大语言模型推理能力的标准范式。然而,其在探索效率与难度适应性方面的效能仍存在挑战。本研究指出,这些瓶颈源于组间相对优势估计(GRAE)中固有的隐式优势对称性。该对称性引发两个关键局限:(i)在组间层面,正确与错误轨迹间严格的权重对称性会使未采样动作的logits保持不变,从而阻碍对新颖正确解的探索;(ii)在样本层面,算法隐式优先处理中等难度样本,未能适应难度聚焦的非平稳需求。通过受控实验,我们揭示这种对称特性存在次优性,并得出两个关键发现:(i)非对称抑制正确轨迹的优势能促进必要探索;(ii)通过类课程学习策略——初始优先处理简单样本再逐步转向复杂样本——可实现学习效率最大化。基于这些发现,我们提出非对称GRAE(A-GRAE),动态调节探索激励与样本难度聚焦。在七个基准测试上的实验表明,A-GRAE能持续提升GRPO及其变体在LLM与多模态大语言模型上的性能。
近期研究探索通过用潜在空间中的连续表征替代显式推理轨迹,来提升推理效率的潜在推理方法,但其效果因具体情境而异。对潜在推理下模型置信度动态的分析表明,以错误答案告终的思维轨迹比正确答案轨迹包含更少的低置信度步骤。同时我们认为,由多个低置信度思维备选方案聚合而成的软嵌入可能引入并传播噪声,导致对不可靠推理轨迹的过度自信。基于这些发现,我们提出ThinkRouter——一种推理时置信度感知路由机制,通过规避高置信度状态和噪声来实现高效推理。该机制在模型置信度较低时将思维路由至离散标记空间,反之则路由至潜在空间。在STEM推理和编程基准测试上的大量实验表明,ThinkRouter在准确率上优于显式思维链、随机路由和潜在推理基线,Pass@1指标平均提升19.70分,同时生成长度最多减少15.55%。进一步综合分析揭示,ThinkRouter能校准显式思维链和潜在推理产生的误差,并通过全局降低模型置信度来加速思维终止标记的生成。
扩散式大语言模型(DLLMs)具备通过并行解码多个标记实现快速文本生成的潜力。然而在实际应用中,其推理效率受限于大量细化步骤的需求,而过度减少步骤数会导致生成质量显著下降。为缓解此问题,我们提出了一种轨迹自蒸馏框架,通过蒸馏模型自身的生成轨迹来改进少步数解码。我们引入直接判别优化(DDO)这一反向KL目标函数,该函数支持模式寻求式蒸馏,并促使学生模型聚焦于教师模型的高概率模式。在多项基准测试中,我们的方法在严格步数预算下持续优于强少步基线及标准训练方案。尽管全步数解码仍具优势,但我们显著缩小了性能差距,为实用型少步DLLMs奠定了坚实基础。源代码已发布于https://github.com/Tyrion58/T3D。
本文重新审视了单负号树阶n胶子散射振幅。尽管通常被认为为零,但我们证明在克莱因空间存在的特定"半共线"构型或复数化动量情况下,这些振幅并不消失。我们推导出了单个负螺旋度胶子衰变为n-1个正螺旋度胶子的分段常数闭式表达式,该公式是粒子动量的函数。这一表达式非平凡地满足了包括温伯格软定理在内的多重自洽条件。
長期記憶使大型語言模型代理能夠透過歷史互動處理複雜任務。然而現有框架面臨一個根本性困境:既要高效壓縮冗餘信息,又要為下游任務保持精確檢索能力。為解決這一矛盾,我們提出基於信息瓶頸原理的MemFly框架,實現LLM的即時記憶演化機制。該方法通過無梯度優化器最小化壓縮熵的同時最大化相關性熵,構建分層記憶結構以實現高效存儲。為充分發揮MemFly效能,我們開發了融合語義、符號與拓撲路徑的混合檢索機制,結合迭代優化策略處理複雜多跳查詢。綜合實驗表明,MemFly在記憶連貫性、響應保真度與準確性方面顯著超越現有頂尖基準模型。
大型语言模型(LLM)向超长上下文应用场景的演进,正面临Transformer架构高计算与内存成本带来的挑战。尽管现有稀疏注意力与线性注意力机制试图缓解该问题,但通常需要在内存效率与模型性能之间进行权衡。本文提出MiniCPM-SALA——一种90亿参数的混合架构,融合了稀疏注意力(InfLLM-V2)的高保真长上下文建模能力与线性注意力(Lightning Attention)的全局效率。通过采用层级选择算法以1:3比例集成这两种机制,并运用混合位置编码(HyPE),该模型在长上下文任务中兼顾效率与性能。此外,我们引入一种低成本持续训练框架,可将基于Transformer的预训练模型转化为混合模型,相较从头训练降低约75%的训练成本。大量实验表明,MiniCPM-SALA在保持与全注意力模型相当通用能力的同时,提供了更高的效率。在单张NVIDIA A6000D GPU上,该模型在256K令牌序列长度下推理速度可达全注意力模型的3.5倍,并支持最高100万令牌的上下文长度(传统全注意力80亿参数模型会因内存限制而无法达到该规模)。
开放式学习将智能视为在与不断扩展的环境空间持续互动中涌现的产物。尽管近期研究利用基础模型以编程方式生成多样化环境,但这些方法往往侧重于发现孤立行为,而非协调可持续的进阶过程。在复杂的开放式世界中,挑战的组合空间极为庞大,导致智能体难以发现始终保持可学习性的经验序列。为此,我们提出"代码筑梦"(DiCode)框架,通过基础模型合成可执行环境代码,为能力提升搭建阶梯式学习路径。在DiCode中,"筑梦"具体表现为实现代码层面的世界变体。我们在Craftax这一具有丰富机制和长周期进阶特性的开放式基准测试中实例化了DiCode。实验表明,DiCode能使智能体掌握长周期技能,其平均回报率较最强基线提升16%,并在前期方法全部失败的终局战斗任务中实现非零成功率。研究结果证明,代码级环境设计为课程控制提供了实用机制,能够构建衔接开放式世界中能力断层的中间环境。项目页面与源代码详见:https://konstantinosmitsides.github.io/dreaming-in-code 及 https://github.com/konstantinosmitsides/dreaming-in-code。
大规模语言模型(LLM)的预训练通常需要配备数千张高显存GPU(如H100/A100)的集中式计算集群。近期出现的去中心化训练方法通过采用联邦优化降低了通信开销,但仍需在每个节点上训练完整模型,受限于GPU显存瓶颈。本研究提出稀疏专家同步(SPES),一种面向专家混合模型(MoE)LLM预训练的内存高效去中心化框架。SPES在每个节点上仅训练专家子集,显著降低内存占用。各节点更新本地专家参数并定期与其他节点同步,在避免全参数传输的同时实现高效知识共享。为加速收敛,我们引入专家融合预热策略,通过在训练初期进行专家知识交互快速建立基础能力。基于SPES框架,我们使用16张独立的48GB显存GPU通过互联网连接完成了20亿参数MoE LLM的训练,其性能在同等计算预算下可与集中式训练的LLM相媲美。我们进一步通过从头训练70亿参数模型及从稠密检查点升级90亿参数模型的实验证明了该框架的可扩展性,两种模型均达到先前集中式基线的水平。代码已开源:https://github.com/zjr2000/SPES。
大规模部署机器人需要应对日常场景中的长尾问题。现实环境中场景布局、物体几何形状和任务规范的无限变化极为复杂,而现有机器人基准测试对此类情况覆盖不足。衡量这种程度的泛化能力需要具备规模和多样性的基础设施,仅靠实体评估难以实现。我们推出MolmoSpaces——一个完全开放的生态系统,用于支持机器人策略的大规模基准测试。该生态系统包含23万多个多样化室内环境,涵盖手工打造的家庭场景到程序化生成的多房间住宅,配置13万个带丰富标注的物体资产,其中包含4.8万个可操作物体及4200万个稳定抓取位。关键的是,这些环境支持主流模拟器(如MuJoCo、Isaac和ManiSkill)的跨平台使用。该系统支持全系列具身智能任务:静态与移动操作、导航,以及需要在整个室内环境中协调感知、规划与交互的多房间长周期任务。我们还设计了包含8项任务的基准测试套件MolmoSpaces-Bench,让机器人与多样化场景及带丰富标注的物体进行交互。实验表明:该基准测试呈现强仿真-现实关联性(R=0.96,ho=0.98);验证了新式零样本策略在基准测试中优于早期版本;揭示了策略对提示语表述、初始关节位姿及摄像头遮挡的关键敏感性。通过MolmoSpaces及其开源资产与工具,我们为机器人学习研究提供了可扩展数据生成、策略训练和基准创建的基础平台。
企业文档(如表格和报告)内嵌的关键信息对数据归档、自动化工作流和分析等下游应用至关重要。尽管通用视觉语言模型在现有文档理解基准测试中表现良好,但其在不同文档类型和灵活模式间进行整体化细粒度结构化信息抽取的能力尚未得到充分研究。现有的关键实体抽取、关系抽取和视觉问答数据集受限于狭窄的实体本体论、简单查询或单一文档类型,往往忽视了可适配结构化抽取的需求。为弥补这些不足,我们推出ExStrucTiny——一个面向文档图像结构化信息抽取的新基准数据集,它融合了关键实体抽取、关系抽取和视觉问答的多重特性。通过结合人工标注与合成样本并经过人工验证的新型构建流程,该数据集涵盖了更丰富的文档类型和抽取场景。我们在此基准上对开放和封闭式视觉语言模型进行分析,揭示了模式适配、查询欠规范及答案定位等挑战。本研究有望为提升通用文档结构化信息抽取模型奠定基础。
多模态大语言模型(MLLMs)正日益应用于涉及多步推理与长文本生成的真实场景任务中,其可靠性要求模型输出必须基于异构输入源并验证每个事实主张。然而,现有的多模态归因基准与评估方法聚焦于简化的、基于观察的场景或有限模态,未能评估复杂多模态推理中的溯源能力。我们提出MuRGAt(基于归因的多模态推理基准),该基准用于评估需要超越直接观察的推理场景中事实级的多模态归因能力。在输入涵盖视频、音频等多模态内容的前提下,MuRGAt要求模型生成包含显式推理过程和精确引证的答案,其中每个引证需同时注明模态类型与时间片段。为实现可靠评估,我们开发了与人类判断高度相关的自动评估框架。通过人工与自动化评分对比发现:即使性能强劲的MLLMs也常在正确推理的同时产生虚假引证;更关键的是,我们观察到一种核心权衡——增加推理深度或强制结构化归因往往会降低准确性,这揭示了内部推理与可验证归因之间的显著差距。
大型語言模型(LLMs)已展現出卓越的推理能力,而協同演化範式在代碼與數學等領域也顯示出良好效果。然而在科學推理任務中,由於解決方案評估的不可靠性及驗證策略的多樣性有限,這些模型仍表現脆弱。本研究提出Sci-CoE——一個兩階段科學協同演化框架,通過從稀疏監督到無監督學習的過渡,使模型能同時作為求解器與驗證器實現自我演化。第一階段中,模型利用少量標註數據為驗證器建立基礎的正確性判斷錨點;第二階段引入融合共識度、可靠性與多樣性的幾何獎勵機制,驅動模型在未標註數據上進行大規模自我迭代。在多個通用科學基準測試上的實驗表明,Sci-CoE能有效增強複雜推理能力,並展現出強擴展性,為構建更魯棒且多元的評估體系提供支持。代碼已開源於https://github.com/InternScience/Sci-CoE。
大型语言模型的个性化对齐旨在通过强化学习使模型响应适配用户个人偏好,其核心挑战在于开放场景中如何获取精准的用户特定奖励信号。现有个性化奖励模型存在两大局限:(1)将多样化的场景特定偏好过度简化为少量固定评估原则;(2)对反馈数据有限的新用户泛化能力不足。为此,我们提出首个支持测试时用户自适应缩放的个人化生成式奖励模型P-GenRM。该模型将偏好信号转化为结构化评估链,动态生成跨场景的自适应角色画像与评分标准,并通过用户原型聚类实现双粒度缩放机制:在个体层面自适应缩放聚合用户评分方案,在原型层面融合相似用户偏好。这种设计能有效抑制偏好推断噪声,并借助原型迁移提升对未见过用户的泛化能力。实验表明,P-GenRM在广泛使用的个性化奖励模型基准上实现平均2.31%的性能提升,并在分布外数据集展现强大泛化性。值得注意的是,测试时用户缩放机制带来额外3%的增益,证明了该模型在保持测试可扩展性的同时实现更强个性化对齐。
圖像隱喻理解仍是當今人工智慧系統面臨的關鍵挑戰。儘管多模態大語言模型在基礎視覺問答任務中表現卓越,卻始終難以把握視覺內容中蘊含的細膩文化語境、情感暗示與情境引申義。這一困境源於該任務需要模型具備多跳推理、文化背景理解及心理理論能力等複雜維度,而現有模型尚存不足。為此,我們提出首個端到端的視覺強化學習框架MetaphorStar,專注於圖像隱喻解析任務。該框架包含三大核心組件:細粒度數據集TFQ-Data、視覺強化學習方法TFQ-GRPO,以及結構化評估基準TFQ-Bench。 我們基於TFQ-Data數據集採用TFQ-GRPO方法訓練的全開源MetaphorStar系列模型,在圖像隱喻基準測試中實現平均82.6%的性能提升。與20餘個主流多模態大模型相比,MetaphorStar-32B在選擇題與開放式問答任務中達到最優水平,並在判斷題任務上顯著超越頂級閉源模型Gemini-3.0-pro。尤為重要的是,實驗表明學習圖像隱喻任務能有效增強模型的通用理解能力,特別是複雜視覺推理能力。我們進一步系統分析了模型參數規模、訓練數據量、不同架構與訓練策略的影響,驗證了方法的廣泛適用性。所有模型權重、數據集及方法代碼均已開源於https://metaphorstar.github.io。
我们研究预算受限的工具增强智能体,该场景要求大型语言模型在严格货币预算下通过调用外部工具完成多步任务。我们将此设定形式化为上下文空间中的序列决策问题,其中工具执行具有价格随机性,由于巨大的状态-动作空间、结果的高方差以及高昂的探索成本,直接规划变得难以处理。为解决这些挑战,我们提出INTENT——一种推理时规划框架,该框架利用意图感知的分层世界模型来预测未来工具使用情况,通过风险校准成本在线指导决策。在成本增强版StableToolBench上的实验表明,INTENT在严格保证硬预算可行性的同时,显著提升了任务成功率,并且在工具价格波动、预算变化等动态市场条件下仍保持稳健性能。
大规模视觉指令调优(VIT)已成为提升视觉语言模型(VLM)在多模态任务中性能的关键范式。然而,由于数据冗余,基于大规模数据集的训练计算成本高昂且效率低下,这推动了对多模态数据选择以提升训练效率的需求。现有的VIT数据选择方法要么需要昂贵的训练或梯度计算,而免训练方案往往依赖代理模型或数据集、与指令无关的表征,以及具有二次方复杂度的成对相似性计算,限制了可扩展性和表征保真度。本研究提出ScalSelect——一种可扩展的免训练多模态数据选择方法,其时间复杂度与样本数量呈线性关系,且无需外部模型或辅助数据集。ScalSelect首先通过提取目标VLM中指令令牌最关注的视觉特征来构建样本表征,从而捕获指令相关信息;随后识别其表征最能逼近全量数据集表征主导子空间的样本,实现无需成对比较的可扩展重要性评分。在多个VLM、数据集及选择预算下的广泛实验表明,ScalSelect仅使用16%的数据即可达到全量数据集训练性能的97.5%以上,在某些设定下甚至超越全量训练效果。代码已开源於https://github.com/ChangtiWu/ScalSelect。
基于可验证奖励的强化学习(RLVR)是训练现代推理模型的核心技术,但由于训练数据未公开,引发了关于基准测试污染的担忧。与使用词元级概率优化模型的预训练方法不同,RLVR根据自生成推理轨迹的奖励反馈对模型进行微调,这使得传统的基于似然度的检测方法效果有限。我们发现RLVR会引发独特的行为特征:在RLVR训练中接触过的提示会导致生成结果更趋僵化且相似,而未见过的新提示则保持更高的多样性。我们提出Min-kNN距离检测法——一种简单的黑盒检测器,通过为给定提示采样多个补全结果,并计算k个最小最近邻编辑距离的平均值来量化这种坍缩现象。该方法无需参考模型参数或词元概率即可实现检测。在多款RLVR训练的推理模型上的实验表明,Min-kNN距离能可靠区分RL训练所见示例与未见示例,其性能优于现有的成员推断与RL污染检测基线方法。
长期以来,具身导航领域因任务专用架构而处于割裂状态。我们推出ABot-N0——一个统一的视觉-语言-动作基础模型,实现了点目标导航、物体目标导航、指令跟随、兴趣点导航及行人跟随这五大核心任务的"大一统"。该模型采用分层式"大脑-动作"架构,将基于大语言模型的认知大脑(负责语义推理)与基于流匹配的动作专家(生成精确连续轨迹)相结合。 为支撑大规模学习,我们开发了ABot-N0数据引擎,在7,802个高保真3D场景(总面积10.7平方公里)中构建了1,690万条专家轨迹和500万条推理样本。ABot-N0在7项基准测试中均达到最新顶尖性能,显著超越各类专用模型。此外,我们的智能导航系统融合了规划器与分层拓扑记忆机制,可在动态现实环境中执行鲁棒的长时程任务。
音乐音轨生成技术能够生成音乐同步且分离的乐器音频片段,与传统文本到音乐模型相比,该技术具有更强的用户控制能力,并能更好地契合音乐制作工作流程。然而现有音轨生成方法要么依赖固定架构并行输出预设音轨组合,要么每次仅生成单一音轨,虽在音轨组合方面具有灵活性,却导致推理速度缓慢。我们提出Stemphonic这一基于扩散/流模型的框架,通过单次推理生成可变数量的同步音轨,成功突破了上述局限。在训练阶段,我们将每个音轨作为批次元素处理,将同步音轨编组后对每组应用共享噪声潜变量。推理时则采用共享初始噪声潜变量与音轨特定文本输入,实现单次推理生成同步多音轨输出。我们进一步扩展该方法,支持单次条件化多音轨生成及音轨活动度控制,使用户能迭代生成并精确编排混音的时间分层结构。通过在多个开源音轨评估集上的测试表明,Stemphonic在将完整混音生成速度提升25%至50%的同时,能产出更高质量的音频结果。演示地址:https://stemphonic-demo.vercel.app。
可解释性与准确性的权衡始终是机器学习领域的核心挑战。标准广义可加模型(GAMs)虽能提供清晰的特征归因,但其严格的加性结构常会限制预测性能。引入特征交互可提升准确性,却可能模糊个体特征的贡献度。为解决这些问题,我们提出神经可加专家模型(NAEs)——一种在可解释性与准确性间实现无缝平衡的创新框架。NAEs采用专家混合框架,为每个特征学习多个专用网络,同时通过动态门控机制整合跨特征信息,从而突破刚性加性约束。此外,我们提出针对性正则化技术以降低专家预测间的方差,实现从纯加性模型到捕获复杂特征交互模型的平滑过渡,同时保持特征归因的清晰度。通过理论分析和合成数据实验,我们验证了该模型的灵活性;在真实数据集上的广泛评估表明,NAEs在预测准确性与透明化特征级解释之间达到了最优平衡。代码详见https://github.com/Teddy-XiongGZ/NAE。