每日精選AI研究論文及翻譯
我們推出Green-VLA——一個分階段的視覺-語言-動作框架,專為Green人形機器人的實際部署設計,同時保持跨多樣化具身系統的泛化能力。該框架遵循五階段課程體系:(L0)基礎視覺語言模型、(L1)多模態接地、(R0)多具身預訓練、(R1)具身專用適配、(R2)強化學習策略對齊。我們將可擴展的數據處理流程(含3,000小時示範數據)與時序對齊及質量篩選相結合,並採用統一的具身感知動作接口,使單一策略能同時控制人形機器人、移動機械臂及固定基座機械臂。在推理階段,通過引入任務進度預測、分佈外檢測和基於關節預測的引導機制,增強VLA控制器的安全性與精準目標選擇能力。在Simpler BRIDGE WidowX與CALVIN ABC-D模擬環境的實驗及真實機器人評估中,該框架展現出強大的泛化性能,並通過強化學習對齊在成功率、魯棒性和長時序任務效率方面實現顯著提升。
我們推出開源多模態代理模型 Kimi K2.5,旨在推進通用代理智能的發展。K2.5 強調文本與視覺的聯合優化,使兩種模態相互增強,其技術亮點包含聯合文本-視覺預訓練、零視覺SFT(指令微調)及聯合文本-視覺強化學習等一系列方法。在此多模態基礎上,K2.5 進一步引入 Agent Swarm(代理集群)——一種自主導向的並行代理協作框架,能動態將複雜任務分解為異構子問題並並行執行。大量評估表明,Kimi K2.5 在編程、視覺、推理及代理任務等領域均實現最先進水平。Agent Swarm 框架更將延遲較單代理基準最高降低 4.5 倍。我們公開釋出經後訓練的 Kimi K2.5 模型檢查點,以促進代理智能的未來研究與實際應用。
多模態大型語言模型(MLLMs)在廣泛的視覺任務中取得了顯著成功。然而受限於其內部世界知識的容量,先前研究提出通過「先推理後調用工具」的方式增強MLLMs,利用視覺與文本搜索引擎在需要大量事實信息的任務上獲得顯著提升。但這些方法通常將多模態搜索置於理想化場景中,假設僅需單次全圖層面或實體層面的圖像查詢配合少量文本查詢即可獲取回答問題的關鍵證據,這在充滿視覺噪聲的真實場景中並不現實。此外,它們往往受制於推理深度與搜索廣度的局限,難以解決需要聚合多源視覺與文本證據的複雜問題。 基於此,我們提出Vision-DeepResearch,創新性地構建了多模態深度研究範式:通過多輪次、多實體、多尺度的視覺與文本搜索,在強噪聲環境下實現對真實搜索引擎的魯棒適配。我們的Vision-DeepResearch支持數十步推理鏈與數百次引擎交互,同時通過冷啟動監督與強化學習訓練將深度研究能力內化至MLLM,最終形成端到端的強大多模態深度研究模型。該模型顯著優於現有多模態深度研究MLLMs,以及基於GPT-5、Gemini-2.5-pro和Claude-4-Sonnet等頂級閉源基礎模型構建的工作流。代碼將發佈於https://github.com/Osilly/Vision-DeepResearch。
多模態大型語言模型(MLLMs)已推動視覺問答(VQA)的發展,並能支援利用搜尋引擎進行複雜圖文事實查證的視覺深度研究系統。然而,評估這類視覺與文本搜尋能力仍面臨挑戰,現有基準測試存在兩大侷限:其一,現有基準並非以視覺搜尋為核心——本需透過視覺搜尋獲取的答案,往往能從文本問題的跨線索中洩露,或可依賴當前MLLMs的先驗世界知識推斷得出;其二,評估情境過於理想化:圖像搜尋端常可透過全圖像近似的精確匹配獲取所需資訊,而文本搜尋端則過於直接且缺乏挑戰性。為解決這些問題,我們建構了包含2,000個VQA實例的視覺深度研究基準(VDR-Bench)。所有問題均透過嚴謹的多階段篩選流程與專家審核創建,旨在評估視覺深度研究系統在真實場景下的表現。此外,針對當前MLLMs視覺檢索能力不足的問題,我們提出一種簡潔的多輪裁剪搜尋工作流程,該策略被證實能有效提升模型在真實視覺檢索情境中的效能。總體而言,我們的研究成果為未來多模態深度研究系統的設計提供了實用指引。程式碼將發佈於https://github.com/Osilly/Vision-DeepResearch。
當前程式庫代理面臨推理斷層的問題,根源在於表徵的碎片化——現有方法依賴於孤立的API文檔或缺乏語義深度的依賴圖。我們將程式庫理解與生成視為統一循環中的逆過程:生成將意圖擴展為實現,而理解則將實現壓縮回意圖。為此,我們提出RPG-Encoder框架,將靜態生成藍圖的儲存庫規劃圖(RPG)泛化為統一的高保真表徵。該框架通過三重機制閉合推理迴路:(1)將原始代碼編碼為融合語義特徵與依賴關係的RPG;(2)以增量式拓撲演化實現維護成本與程式庫規模解耦,降低95.7%開銷;(3)作為結構感知導航的統一接口。在評估中,RPG-Encoder在SWE-bench Verified上以93.7%的Acc@5刷新程式庫理解最佳表現,並在SWE-bench Live Lite上超越基線模型10%以上,彰顯了其在複雜程式庫中優越的細粒度定位能力。此外,其在RepoCraft上實現98.5%的重建覆蓋率,證實RPG具備鏡像原始程式庫的高保真能力,徹底閉合了意圖與實現之間的迴路。
統一多模態模型在處理需要深度推理的複雜合成任務時往往表現不佳,通常將文本生成圖像與圖像編輯視為獨立能力而非相互關聯的推理步驟。為解決這一問題,我們提出UniReason框架,通過雙重推理範式協調這兩項任務。我們將生成任務定義為世界知識增強型規劃以注入隱性約束,並利用編輯能力進行細粒度視覺優化,通過自我反思進一步修正視覺誤差。這種方法在共享表徵空間內統一了生成與編輯,模擬了人類先規劃後優化的認知過程。為支撐該框架,我們系統性構建了涵蓋五大知識領域(如文化常識、物理學等)的大規模推理中心數據集(約30萬樣本)用於規劃,同時配備智能體生成的視覺自我校正語料庫。大量實驗表明,UniReason在WISE、KrisBench和UniREditBench等推理密集型基準測試中實現先進性能,同時保持卓越的通用合成能力。
我們提出SWE-Universe,這是一個可擴展且高效的框架,能從GitHub拉取請求(PR)自動構建真實世界的軟體工程(SWE)可驗證環境。為克服自動構建中普遍存在的挑戰(如產出率低、驗證機制薄弱及成本過高),本框架採用由高效自訂訓練模型驅動的構建代理。該代理通過迭代式自我驗證與循環內駭客檢測技術,確保可靠生成高保真度的可驗證任務。運用此方法,我們將真實世界多語言SWE環境的規模擴展至百萬級(807,693個)。我們通過大規模代理中期訓練與強化學習,證明了這些環境的重要價值。最終,我們將此技術應用於Qwen3-Max-Thinking模型,並在SWE-Bench Verified上獲得75.3%的評分。本研究為推進下一代編碼代理的發展,提供了關鍵資源與穩健的方法論。
深度研究正逐漸成為大型語言模型(LLM)代理的典型長週期任務。然而,深度研究中的冗長軌跡常超出模型上下文限制,壓縮了證據收集與報告撰寫的令牌預算,並阻礙有效的測試時擴展。我們提出FS-Researcher——一個基於檔案系統的雙代理框架,通過持久化工作區將深度研究擴展至上下文視窗之外。具體而言,Context Builder代理扮演圖書館員角色,負責瀏覽網際網路、撰寫結構化筆記,並將原始資料歸檔至可遠超上下文長度的階層化知識庫中。隨後,Report Writer代理以分節方式撰寫最終報告,將知識庫視為事實來源。在此框架下,檔案系統作為跨代理與會話的持久化外部記憶體及共享協調媒介,實現超越上下文視窗的迭代優化。在兩項開放式基準測試(DeepResearch Bench與DeepConsult)上的實驗表明,FS-Researcher在不同骨幹模型下均實現了最先進的報告品質。進一步分析顯示,最終報告品質與分配給Context Builder的計算資源呈正相關,驗證了檔案系統範式下測試時擴展的有效性。程式碼與資料已匿名開源於:https://github.com/Ignoramus0817/FS-Researcher。
像素扩散技术以端到端方式直接在像素空间生成图像,避免了双阶段潜在扩散中VAE引入的伪影与瓶颈效应。然而,高维像素流形包含大量感知无关信号,其优化极具挑战性,导致现有像素扩散方法性能落后于潜在扩散模型。我们提出PixelGen——一种配备感知监督的简易像素扩散框架。该框架通过引入两种互补的感知损失函数,引导扩散模型学习更具意义的感知流形,而非对完整图像流形进行建模。其中LPIPS损失促进局部模式学习,基于DINO的感知损失则强化全局语义理解。在感知监督下,PixelGen超越了强潜在扩散基线模型:无需分类器引导即在ImageNet-256上取得5.11的FID分数(仅80训练轮次),在大规模文生图任务中展现出0.79的GenEval评分优势。该方案无需VAE编码器、潜在表示或辅助训练阶段,构建了更简洁却更强大的生成范式。代码已开源于https://github.com/Zehong-Ma/PixelGen。
渐进式学习(PL)通过逐步扩展模型规模来降低预训练计算开销。虽然前人研究已深入探索了深度扩展,但宽度扩展的研究仍明显不足,现有少数方法也仅限于训练早期阶段。然而,在训练中期进行宽度扩展对于最大化计算效率至关重要,但由于严重的训练不稳定性,这仍是艰巨挑战。实验表明,在此阶段采用简单初始化会破坏激活统计量,引发损失值突变;而基于复制的初始化则会导致梯度对称性,阻碍特征多样性。为解决这些问题,我们提出SPARKLING框架(通过平衡信号保持与对称性破缺实现宽度渐进学习),这是一种适用于中期宽度扩展的创新方案。该方法通过RMS尺度一致性实现信号保持,在扩展过程中稳定激活统计量;通过非对称优化器状态重置与学习率重新预热确保对称性破缺。在混合专家模型上的大量实验表明,SPARKLING在多种宽度维度和优化器族中均显著优于从头训练的方法,在2倍宽度扩展下最高可降低35%的训练成本。
基于语义ID的推荐是扩展序列推荐系统的潜力范式,但现有方法大多遵循语义中心的流程:从基础模型学习物品嵌入,并使用通用量化方案进行离散化。这种设计与生成式推荐目标存在偏差:语义嵌入与协同预测弱关联,而通用量化在降低自回归建模的序列不确定性方面效率低下。为此,我们提出ReSID——一个面向推荐的原生化、原则性语义ID框架,从信息保存和序列可预测性角度重构表征学习与量化过程,且无需依赖大语言模型。ReSID包含两个核心组件:(一)场感知掩码自编码器,从结构化特征学习预测充分的物品表征;(二)全局对齐正交量化器,通过联合降低语义模糊性和前缀条件不确定性,生成紧凑且可预测的语义ID序列。理论分析和十大数据集的实验结果表明,ReSID在持续超越强序列基线及基于语义ID的生成式基线平均超过10%的同时,将标记化成本降低高达122倍。代码已开源:https://github.com/FuCongResearchSquad/ReSID。
推理大模型的後訓練是一個整體性過程,通常包含離線監督微調(SFT)階段與線上強化學習(RL)階段的串聯。然而,當前實踐往往孤立地優化SFT階段,僅追求最大化SFT本身的性能指標。 我們發現,在經過完全相同的RL訓練後,從較強SFT檢查點初始化的模型,其最終表現可能顯著遜色於從較弱檢查點初始化的模型。這一現象根源於當前SFT-RL流程中的典型錯配:生成離線SFT數據的分佈,與線上RL階段從自身推演結果中學習的優化策略分佈存在顯著差異。 為此,我們提出PEAR(基於策略評估的離線學習損失重加權算法),一種在SFT階段校正上述錯配、為後續RL階段更好預熱模型的方法。PEAR運用重要性採樣對SFT損失進行重加權,提供詞元級、區塊級和序列級三種變體。該方法可無縫集成至標準SFT目標函數,且在收集完離線數據的概率分佈後幾乎不增加訓練開銷。 我們在Qwen 2.5/3和DeepSeek蒸餾模型上,針對可驗證推理遊戲和數學推理任務進行了對照實驗。PEAR始終能超越傳統SFT方法提升RL後模型性能,在AIME2025數據集上實現了最高14.6%的pass@8指標提升。實驗結果表明,通過在設計與評估SFT時前瞻性考慮下游RL階段而非孤立優化,PEAR為實現更協同的大模型後訓練邁出了關鍵一步。
移动图形用户界面(GUI)世界模型(WM)为提升移动GUI智能体在训练和推理阶段的性能提供了可行路径。然而现有方法面临关键权衡:基于文本的世界模型牺牲了视觉保真度,而视觉世界模型在精确文本渲染方面的缺陷导致其依赖缓慢复杂、需要多个外部模型的流程。我们提出了一种新颖范式:通过可渲染代码生成实现视觉世界建模,即使用单一视觉语言模型(VLM)预测可执行网页代码形式的下一GUI状态(该代码可渲染为像素),而非直接生成像素。这种方法融合了两种范式的优势:VLM既保持了语言先验以实现精确文本渲染,又通过结构化网页代码的预训练实现了高保真视觉生成。我们推出了基于此范式的首个开放权重视觉移动GUI世界模型gWorld(8B/32B),同时开发了可自动合成代码训练数据的生成框架(gWorld)。在4个域内和2个域外基准测试中,gWorld在准确率与模型规模之间建立了新的帕累托前沿,性能超越8个前沿开放权重模型(最大模型规模达gWorld的50.25倍)。进一步分析表明:(1)通过gWorld扩展训练数据能带来显著增益;(2)流程中各组件均能提升数据质量;(3)更强的世界建模能力可改进下游移动GUI策略性能。
基於圖譜的檢索增強生成(GraphRAG)通過將外部知識組織為層次化圖結構,實現了跨多篇文檔的分散證據高效檢索與聚合。然而,現有許多GraphRAG基準測試僅使用簡短的精選段落作為外部知識,未能充分評估系統在處理長上下文和大規模異構文檔的真實場景中的表現。為填補這一空白,我們推出了WildGraphBench基準測試,專門用於評估GraphRAG在真實環境下的性能。我們利用維基百科的獨特結構——其連貫敘述均基於長篇異構的外部參考文檔——構建了反映真實場景的基準。具體而言,我們採樣了12個頂級主題的文章,將其外部參考文獻作為檢索語料庫,並將引文鏈接的陳述作為事實依據,最終生成涵蓋三種複雜度層級的1,100個問題:單事實問答、多事實問答和章節級摘要。在多個基線模型上的實驗表明,當證據來源數量適中時,當前GraphRAG流程有助於多事實聚合,但這種聚合範式可能過度強調高層次陳述而忽略細粒度細節,導致在摘要任務中表現較弱。項目頁面:https://github.com/BstWPY/WildGraphBench。
思维链推理技术已推动大语言模型从纯文本思考扩展到图像与视频思考。然而不同模态仍存在明显局限:静态图像难以呈现时序结构,而视频则会引入大量冗余信息与计算成本。本研究提出"漫画思维"视觉推理范式,将漫画作为介于图像与视频之间的高信息密度媒介。漫画在显著降低推理成本的同时,能保留时序结构、嵌入文本及叙事连贯性。我们系统研究了基于漫画的两种推理路径,并在多类推理任务与长上下文理解任务中进行评估。实验结果表明,在多步骤时序与因果推理任务中,漫画思维优于图像思维,同时仍比视频思维显著高效。进一步分析表明,不同漫画叙事结构与风格会对各类任务表现产生持续影响,这证实漫画可作为提升多模态推理能力的有效中间视觉表征。
我们提出RLAnything强化学习框架,该框架通过闭环优化动态构建环境、策略与奖励模型,增强学习信号并强化适用于各类大语言模型及智能体场景的强化学习系统。具体而言,策略模型通过整合逐步执行信号与最终结果的反馈进行训练,而奖励模型则通过一致性反馈进行联合优化,这种优化反过来又能进一步提升策略训练效果。此外,我们基于理论设计的自动环境适配机制,通过利用策略模型与奖励模型的批判性反馈,实现从经验中学习,从而改善两者的训练效果。实证研究表明,每个新增组件都能持续提升系统整体性能:RLAnything在各类代表性大语言模型与智能体任务中取得显著增益,使Qwen3-VL-8B-Thinking在OSWorld上提升9.1%,Qwen2.5-7B-Instruct在AlfWorld和LiveBench上分别提升18.7%和11.9%。我们还发现经优化的奖励模型信号优于依赖人工标注的结果。代码地址:https://github.com/Gen-Verse/Open-AgentRL
深度研究智能體(DRA)在自主資訊檢索與報告生成方面展現出卓越能力,顯示出協助人類完成複雜研究任務的巨大潛力。現有的評估框架主要依賴大型語言模型生成的參考內容或衍生的評估維度,雖然這些方法具備可擴展性,但往往缺乏專家驗證內容的可靠性,且難以對關鍵維度提供客觀細緻的評估。為彌補這一不足,我們推出維基實時挑戰(WLC),這項動態基準測試以最新的維基百科優良條目(GA)作為專家級參照標準。維基百科對中立性、全面性與可驗證性的嚴格要求,對深度研究智能體構成重大挑戰,而優良條目正是這些標準的典範。我們精選100篇近期優良條目建構資料集,並提出維基評估框架——包含39項寫作質量細部評判標準的評估方法,以及嚴謹的事實可驗證性指標。針對各類深度研究智能體系統的廣泛實驗表明,當前系統與人類專家級維基條目間存在顯著差距,證實了WLC在推進智能體研究方面的有效性。我們已將基準測試開源於:https://github.com/WangShao2000/Wiki_Live_Challenge
直接偏好优化方法已成为對齐大型語言模型時,相較於人類反饋強化學習更具計算效率的替代方案。最新方法通過推導隱式獎勵函數簡化了對齐流程,但普遍存在關鍵的目標失配問題:優化已選與被拒回應之間的相對邊界,並不能保證維持已選回應的絕對似然度。這可能導致「遺忘現象」——模型為滿足邊界約束而降低高質量輸出的概率,以及因過度懲罰被拒序列而引發的「格式崩潰」。本研究提出SLIME(穩定性似然隱式邊界強化算法),這种無參考對齐目標旨在將偏好學習與生成質量解耦。SLIME包含三重目標:(1) 最大化首選回應似然度的錨定項;(2) 防止被拒詞元概率坍縮至零的穩定性懲罰項;(3) 結合硬約束與軟約束的雙重邊界機制,實現精確的決策邊界塑造。實驗結果表明,SLIME在保持更高生成穩定性的同時,相較於現有頂尖基準方法實現了更優異的性能。
自回归视频扩散模型实现了流式生成,为长视频合成、视频世界模型和交互式神经游戏引擎开辟了道路。然而,其核心注意力层在推理时成为主要瓶颈:随着生成进程推进,KV缓存不断增长,导致延迟加剧和GPU内存占用攀升,进而限制可用时序上下文并损害长程一致性。本研究系统分析了自回归视频扩散中的冗余现象,识别出三个持续存在的来源:跨帧存在的近重复缓存键值、演化缓慢(主要承载语义信息)导致大量注意力计算冗余的查询/键值,以及长提示词跨注意力中每帧仅需少量关键标记的特性。基于这些发现,我们提出面向自回归扩散模型的统一免训练注意力框架:TempCache通过时序对应关系压缩KV缓存以限制增长;AnnCA利用快速近似最近邻匹配筛选帧相关提示词标记来加速跨注意力;AnnSA则通过轻量级近似最近邻将每个查询限制在语义匹配的键值范围内,实现自注意力稀疏化。这些模块协同工作可降低注意力计算量和内存占用,且与现有自回归扩散主干网络及世界模型兼容。实验表明,在保持近乎一致视觉质量的同时实现了最高5-10倍的端到端加速,关键是在长序列生成中能维持稳定吞吐量和近乎恒定的GPU峰值内存使用,而现有方法会持续减速且内存占用不断攀升。
为实现实时交互式视频生成,当前方法将预训练的双向视频扩散模型蒸馏为少步自回归模型,但在全注意力机制被因果注意力替代时面临架构差异。然而现有方法未能从理论上弥合这一差异。它们通过ODE蒸馏初始化自回归学生模型,该方法要求满足帧级单射性条件——即每个含噪帧在自回归教师的概率流常微分方程下必须映射到唯一的清晰帧。从双向教师模型蒸馏自回归学生会违反该条件,导致无法恢复教师的流映射,反而产生条件期望解,从而降低生成性能。为解决此问题,我们提出因果强制方法,采用自回归教师进行ODE初始化,从而弥合架构差异。实验结果表明,本方法在所有指标上均优于基线模型,其中动态度指标超越当前最优的自我强制方法19.3%,视觉奖励指标提升8.7%,指令跟随能力提高16.7%。项目页面与代码地址:https://thu-ml.github.io/CausalForcing.github.io/
文本到视频(T2V)生成技术旨在合成具有高视觉质量、时间连贯性且与输入文本语义对齐的视频。基于奖励的后训练方法已成为提升生成视频质量与语义对齐度的新兴方向。然而,现有方法或依赖大规模人工偏好标注,或采用预训练视觉-语言模型中未对齐的嵌入表示,导致可扩展性受限或监督效果欠佳。本文提出PISCES——一种无需标注的后训练算法,通过新颖的双重最优传输(OT)对齐奖励模块突破上述局限。为实现奖励信号与人类判断的对齐,PISCES运用OT技术在分布层面和离散标记层面分别构建文本-视频嵌入的关联,使奖励监督实现双重目标:(1)分布级OT对齐质量奖励,捕捉整体视觉质量与时间连贯性;(2)离散标记级OT对齐语义奖励,强化文本与视频标记间的语义时空对应关系。据我们所知,PISCES是首个通过OT视角改进生成式后训练中无标注奖励监督的方法。在长短视频生成任务上的实验表明,PISCES在VBench评估的质量与语义分数上均优于基于标注和无标注的方法,人类偏好研究进一步验证其有效性。我们还证明双重OT对齐奖励模块可兼容多种优化范式,包括直接反向传播和强化学习微调。
尽管文本到图像生成技术已实现前所未有的逼真度,但现有模型本质上仍是静态的文本到像素解码器,往往难以捕捉用户的隐含意图。虽然新兴的统一理解-生成模型提升了意图理解能力,但在单一模型内仍难以完成涉及复杂知识推理的任务。此外,受限于静态内部先验,这些模型无法适应现实世界的动态演变。为弥补这些不足,我们提出Mind-Brush——一个将生成过程转化为动态知识驱动工作流的智能体框架。该框架通过模拟人类"思考-检索-创作"的范式,主动获取多模态证据以锚定分布外概念,并运用推理工具解析隐含的视觉约束。为系统评估这些能力,我们构建了包含500个样本的Mind-Bench综合基准,涵盖实时新闻、新兴概念及数学与地理推理等领域。大量实验表明,Mind-Brush显著增强了统一模型的能力,使Qwen-Image基线在Mind-Bench上实现从零到一的能力跃迁,同时在WISE、RISE等成熟基准测试中取得更优结果。
为提升大型语言模型知识蒸馏效果的研究日益增多,这些研究采用选择性蒸馏策略替代传统的密集教师监督机制,即仅选取部分词元位置、词汇类别或训练样本进行监督。然而,关于何种重要性信号、选择策略及其相互作用最为有效的问题仍不明确。本研究重新审视了自回归大型语言模型中知识蒸馏的定位与实施方法:我们分别从位置轴、类别轴和样本轴三个维度解构选择性知识蒸馏,系统比较了各类重要性信号与选择策略。基于此分析框架,我们发现了尚未充分探索的优化空间,并提出基于学生熵指导的位置选择方法(SE-KD)。在系列基准测试中,SE-KD相较于密集蒸馏在准确率、下游任务契合度和内存效率方面均展现出优势。将该方法扩展至类别轴与样本轴形成的三维框架(SE-KD 3X)可产生互补性效率增益,使得离线教师缓存方案具备可行性。实际应用中,该方法在保持性能不变的前提下,较现有技术将训练时间缩短70%,峰值内存降低18%,存储空间占用减少80%。
基于大语言模型的深度研究智能体主要建立在ReAct框架之上。这种线性设计难以回溯早期状态、分支到替代搜索方向或在长上下文下保持全局认知,常导致局部最优、冗余探索和低效搜索。我们提出Re-TRAC框架,该智能体通过在每个轨迹后生成结构化状态表示(用于总结证据、不确定性、失败案例和未来计划),并基于此状态表示调整后续轨迹,实现跨轨迹探索。这种设计支持迭代反思与全局知情规划,将研究重构为渐进式过程。实验结果表明,在BrowseComp基准上,Re-TRAC使用前沿大语言模型时持续领先ReAct框架15-20%。针对小规模模型,我们引入Re-TRAC感知的监督微调方法,在同等规模下实现了最先进的性能。值得注意的是,Re-TRAC在多轮搜索中呈现出工具调用次数和令牌用量的单调递减,表明其通过跨轨迹反思驱动渐进式目标探索,而非冗余搜索。
我们提出FSVideo——一种基于快速变换器的图像到视频(I2V)扩散框架。该框架的核心构建模块包括:1)新型视频自编码器,其具备高度压缩的潜空间(时空下采样比达64×64×4),在重建质量方面表现优异;2)采用新型层间记忆设计的扩散变换器架构,可增强DIT内部层间信息流与上下文复用;3)通过少步数DIT上采样器实现的多分辨率生成策略,以提升视频保真度。我们的最终模型包含140亿参数的DIT基础模型和140亿参数的DIT上采样器,在性能上可与主流开源模型相媲美,同时生成速度提升一个数量级。本报告将详细阐述模型设计与训练策略。
日本金融領域融合了黏著語的頭韻結構、混合書寫系統,以及依賴間接表達與隱性承諾的高語境溝通規範,這對大語言模型構成重大挑戰。我們推出Ebisu基準測試——一個針對日語原生金融語言理解的評估體系,包含兩項基於語言文化背景並經專家標註的任務:JF-ICR任務評估面向投資者問答中的隱性承諾與拒絕識別能力,JF-TE任務則檢驗從專業披露文件中分層提取與排序嵌套金融術語的能力。我們評估了涵蓋通用型、日語適應型及金融專用模型在內的多種開源與專有大語言模型。結果表明,即使最先進的系統在兩項任務中均表現不佳。雖然擴大模型規模能帶來有限提升,但語言與領域專屬適配並未穩定改善性能,仍有顯著差距待解決。Ebisu為推進立足語言文化背景的金融自然語言處理提供了精準的基準測試框架,所有數據集與評估腳本均已公開釋出。
视觉隐喻作为人类创造力的高阶形式,通过跨域语义融合将抽象概念转化为具有冲击力的视觉修辞。尽管生成式AI取得了显著进展,现有模型仍主要局限于像素级指令对齐与表层特征保持,未能捕捉真正隐喻生成所需的底层抽象逻辑。为弥补这一差距,我们提出视觉隐喻迁移任务,要求模型自主解耦参考图像中的"创作精髓",并将该抽象逻辑重现在用户指定的目标主体上。我们受认知科学启发,提出多智能体框架,通过新颖的图式语法实现概念整合理论的操作化。这种结构化表征将关系不变性从具体视觉实体中解耦,为跨域逻辑重实例化奠定严谨基础。我们的流水线通过专业化智能体协作系统执行视觉隐喻迁移:感知智能体将参考图像提炼为图式,迁移智能体维持泛型空间不变性以发现适配载体,生成智能体负责高保真合成,分层诊断智能体则模拟专业评论家,通过闭环回溯机制在抽象逻辑、组件选择及提示编码等层面识别并修正错误。大量实验与人工评估表明,本方法在隐喻一致性、类比恰当性与视觉创造力方面显著优于现有最优基线,为广告与媒体领域的自动化高影响力创意应用铺平道路。源代码将公开发布。
多模态大语言模型(MLLMs)在开放词汇感知任务中取得了显著成功,但其解决复杂认知问题的能力仍然有限,尤其在视觉细节抽象且需要视觉记忆的场景下。当前方法主要沿文本空间扩展思维链(CoT)推理,即便在单靠语言难以实现清晰结构化推理时仍沿用此路径,且基本忽视了类人视觉空间画板与视觉意象的视觉推理机制。为弥补这一缺陷,我们提出认知超感知训练范式,通过集成潜在视觉意象预测(LVIP)模块,使MLLMs具备类人视觉意象能力——该模块联合学习视觉认知潜在嵌入序列并将其与答案对齐,从而形成基于视觉的内部推理链。我们进一步引入强化学习阶段,基于此 grounded 视觉潜在空间优化文本推理路径。为评估MLLMs的认知能力,我们提出CogSense-Bench综合视觉问答基准,涵盖五大认知维度。大量实验表明,采用认知超感知训练的MLLMs在CogSense-Bench上显著优于现有最优基线模型,并在跨领域数学与科学VQA基准上展现出卓越的泛化能力,这提示内部视觉意象可能是连接感知识别与认知理解的关键桥梁。我们将开源CogSense-Bench基准及模型权重。
近期生成模型在图像编辑领域取得了显著进展。然而现有系统和基准测试仍主要基于文本引导。相比之下,人类交流本质上是多模态的,其中诸如草图之类的视觉指令能有效传递空间和结构意图。为弥补这一差距,我们推出了VIBE(视觉指令图像编辑基准),该基准采用三级交互层次结构,涵盖指示性定位、形态操控和因果推理。基于这三个层级,我们构建了高质量且多样化的测试案例,体现视觉指令跟随任务中逐级递增的复杂性。我们进一步提出基于大语言模型的评估框架,配备任务特定指标,以实现可扩展的细粒度评估。通过对17个代表性开源和商业图像编辑模型的综合评估,我们发现商业模型已具备初级视觉指令跟随能力,且始终优于开源模型。但随着任务难度增加,即使是最强大的系统性能也会显著下降,这为未来研究指明了富有前景的方向。
生成会说话的数字人是视频生成领域的一项基础任务。尽管现有方法能够生成具有简单人体动作的全身说话数字人,但将该任务扩展至具身人机交互(GHOI)仍面临挑战,这要求数字人能够与周围物体执行文本对齐的交互操作。这一挑战源于环境感知的需求以及GHOI生成中控制质量两难问题。为此,我们提出新型双流框架InteractAvatar,将具身人机交互中的环境感知、规划与视频合成进行解耦。通过引入检测技术增强环境感知能力,我们开发了感知交互模块(PIM)来生成文本对齐的交互动作。此外,提出音频交互感知生成模块(AIM)来合成执行物体交互的生动说话数字人。借助专门设计的运动-视频对齐器,PIM与AIM采用相似网络结构,可实现动作与合理视频的并行协同生成,有效缓解控制质量两难问题。最后,我们建立了GroundedInter基准数据集用于评估GHOI视频生成。大量实验与对比分析证明了本方法在生成具身人机交互说话数字人方面的有效性。项目页面:https://interactavatar.github.io
传统的奖励模型通常只能预测标量分数,难以捕捉不可验证领域(如创意写作或开放式指令遵循)中回复质量的多维特性。为突破这一局限,我们提出Rubric-ARM框架,通过基于偏好的强化学习联合优化评分标准生成器与评判器。与依赖静态评分标准或割裂训练流程的现有方法不同,我们的方法将评分标准生成视为潜在动作,通过优化判断准确性进行学习。针对同步更新导致的非平稳性问题,我们引入交替优化策略,并通过理论分析证明该方案能有效降低训练过程中的梯度方差。大量实验表明,Rubric-ARM在多个基准测试中均优于基线模型,并在离线和在线强化学习场景下显著提升了下游策略对齐效果。
電腦使用代理(CUA)旨在自主操作電腦系統以完成現實世界任務。然而,現有代理系統仍難以擴展且性能落後於人類。關鍵侷限在於缺乏可重複使用的結構化技能抽象,這些抽象應能捕捉人類與圖形用戶界面的互動方式及技能運用方法。我們提出CUA-Skill——一個將人類電腦使用知識編碼為技能庫的電腦使用代理技能庫,其技能附帶參數化執行流程與組合圖譜。該技能庫作為大規模精心設計的Windows常用應用程序技能集合,為可擴展、高可靠性的代理開發提供實用基礎設施與工具基底。基於此技能庫,我們構建了CUA-Skill代理——支持動態技能檢索、參數實例化與記憶感知故障恢復的端到端電腦使用代理。實驗結果表明,CUA-Skill在具挑戰性的端到端代理基準測試中顯著提升執行成功率與魯棒性,為未來電腦使用代理發展奠定堅實基礎。在WindowsAgentArena測試中,CUA-Skill代理以57.5%(三次最佳)的成功率達到現有最優水平,同時顯著優於先前及同期方法的執行效率。項目頁面請訪問:https://microsoft.github.io/cua_skill/。
大型语言模型(LLM)的控制方法(包括局部权重微调、基于LoRA的适配以及基于激活的干预)常被孤立研究,这掩盖了它们之间的关联性并导致比较困难。本研究提出统一视角,将这些干预措施视为控制信号引发的动态权重更新,并将其纳入同一概念框架。基于此视角,我们建立了统一偏好-效用分析框架,将控制效果分解为偏好(指向目标概念的倾向性)和效用(保持连贯且符合任务要求的生成能力),并采用极性配对对比样本在共享对数几率尺度上进行量化测量。所有方法均呈现一致的偏好-效用权衡规律:强化控制会提升偏好度,但会可预见地降低效用值。我们通过激活流形视角进一步解释该现象:控制操作会沿目标概念方向偏移表征以增强偏好,而当干预使表征偏离模型的有效生成流形时,效用则会显著下降。最后,基于此分析我们提出新型引导方法SPLIT,在提升偏好的同时更好地保持效用。代码详见https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md。
本文在大型语言模型的隐层状态中发现了一种稀疏奖励子系统,该机制与人类大脑中的生物奖励系统具有功能相似性。我们证明该子系统中存在表征模型内部状态价值期望的价值神经元,并通过干预实验验证了这些神经元对推理过程的关键作用。实验表明,这些价值神经元在不同数据集、模型规模和架构下均保持稳定性,且在基于同一基础模型微调的不同模型和数据集间表现出显著的迁移性。通过分析价值预测与实际奖励出现偏差的案例,我们在奖励子系统中识别出编码奖励预测误差的多巴胺神经元——当实际奖励高于预期时这些神经元激活度升高,低于预期时则激活度降低。
近期视觉推理领域的研究开始采用视觉Transformer应对ARC-AGI基准测试。然而我们认为,计算深度严格受限于参数规模的前馈架构,难以捕捉人类归纳思维中具有迭代特质的算法本质。本文提出名为Loop-ViT的递归架构,通过权重共享的循环机制实现推理深度与模型容量的解耦。该架构通过迭代执行权重共享的混合模块(融合局部卷积与全局注意力机制),形成潜在思维链。关键创新在于基于预测熵的无参数动态退出机制:当模型内部状态"结晶"为低不确定性的吸引子时,推理过程自动终止。在ARC-AGI-1基准上的实验验证了该观点:我们的1800万参数模型达到65.8%准确率,优于7300万参数的大型集成模型。这些发现表明,自适应迭代计算为视觉推理提供了比单纯增加网络宽度更高效的扩展路径。代码已开源:https://github.com/WenjieShu/LoopViT。
大型语言模型(LLMs)通过逐步的思维链(CoT)推理已展现出强大的推理能力。然而在模型能力边界处,CoT往往显得力有不逮,且其严格线性特性制约了测试时的可扩展性。分治(DAC)推理作为一种潜在替代方案,通过将复杂问题分解为子问题来促进更有效的解决方案探索。尽管前景可观,我们的分析发现通用后训练与DAC式推理之间存在根本性错位,限制了模型充分发挥这种潜力。为弥补这一差距并全面释放LLMs在最具挑战性任务上的推理能力,我们提出端到端强化学习(RL)框架来增强其DAC式推理能力。该框架在每一步将问题分解为子问题集,依次求解后基于子问题解决方案处理原问题,并将分解与求解过程共同纳入RL训练。在同等训练条件下,我们的DAC式框架赋予模型更高的性能上限和更强的测试时扩展性,在竞赛级基准测试中Pass@1和Pass@32指标分别超越CoT方法8.6%和6.3%。
文本到图像生成技术虽已取得显著进展,但现有方法普遍缺乏人类创造力特有的动态推理与优化能力。当前基于推理增强的范式大多依赖显性思维过程,需在固定步骤将中间推理解码为离散文本,并频繁进行图像编解码,导致效率低下、信息丢失及认知错配。为弥补这一缺陷,我们提出LatentMorph——一种将隐式潜在推理无缝集成到T2I生成过程的新框架。其核心包含四个轻量级组件:(一)用于将中间生成状态压缩为紧凑视觉记忆的冷凝器;(二)将潜在思维转化为可操作指引的转换器;(三)动态引导后续图像令牌预测的塑形器;(四)通过强化学习训练、自适应决定推理时机的调用器。通过在连续潜在空间中完成推理,LatentMorph规避了显式推理的瓶颈,实现了更高效的自适应优化。大量实验表明:LatentMorph(I)在GenEval和T2I-CompBench基准上分别将基础模型Janus-Pro性能提升16%和25%;(II)在WISE和IPV-Txt等抽象推理任务中超越显式推理范式(如TwiG)15%和11%;(III)同时将推理时间减少44%,令牌消耗降低51%;(IV)在推理调用机制上展现出与人类直觉71%的认知一致性。
人工智能代理处理日益复杂和长周期任务的能力持续提升,在编程、深度研究和复杂问题解决评估中展现出卓越性能。然而在日常场景中,普通用户对这些先进AI能力的认知仍存在局限。我们认为当前评估体系过度关注任务难度的提升,却未能充分涵盖广泛人群日常工作、生活及学习所需的多样化代理任务。为此,我们提出AgentIF-OneDay基准框架,旨在验证普通用户能否通过自然语言指令和AI代理完成多元化的日常任务。这些任务不仅需要通过对话解决问题,还要求理解多种附件类型并交付可触达的文件化成果。该基准围绕三个用户中心维度构建:评估显性复杂工作流执行能力的"开放工作流执行"、要求从附件推断隐性指令的"潜在指令解析",以及涉及对进行中任务修改扩展的"迭代优化"。我们采用实例级量规和改进的评估流程,使基于大语言模型的验证与人类判断保持一致,使用Gemini-3-Pro实现了80.1%的判定一致率。AgentIF-OneDay包含104项任务,覆盖767个评分点。通过对四款主流通用AI代理的测试发现,基于API构建的代理产品与基于强化学习的ChatGPT代理仍同时处于第一梯队。领先的大语言模型API和开源模型已内化代理能力,使AI应用团队能够开发前沿的代理产品。
随着基于大语言模型的智能体被部署到日益复杂的现实场景中,现有基准测试未能充分体现关键挑战,例如执行全局约束、协调多工具推理,以及在长周期多轮交互中适应用户行为的动态变化。为弥补这一缺陷,我们推出了TRIP-Bench——一个基于真实旅行规划场景的长周期基准测试。该基准利用真实世界数据,提供18个精选工具和40余项旅行需求,并支持自动化评估。其包含不同难度的测试集:困难级测试集重点关注冗长模糊的交互、风格转换、可行性变更及迭代式方案修订。对话最长可达15轮用户交互,可能涉及150余次工具调用,上下文长度可超过20万词元。实验表明,即使先进模型在简单测试集上的最高成功率也仅达50%,而在困难子集上性能更降至10%以下。我们进一步提出GTPO方法——一种采用特定奖励归一化与奖励差分机制的在线多轮强化学习方法。将GTPO应用于Qwen2.5-32B-Instruct模型后,其在约束满足度与交互鲁棒性方面显著提升,在我们的评估中表现优于Gemini-3-Pro。我们期待TRIP-Bench能推动实用型长周期交互智能体的发展,而GTPO能为鲁棒的长周期训练提供有效的在线强化学习方案。
流匹配模型已彻底改变文本到图像生成领域,而强化学习作为关键的后训练策略,对实现奖励目标对齐至关重要。本研究揭示当前流匹配模型的强化学习流程存在两个未被充分重视但至关重要的问题:因生成多样性不足导致的样本低效性,以及显著的提示词过拟合现象——模型会记忆特定训练表述,在面对语义相同但风格变化的提示词时出现性能急剧衰退。我们提出PromptRL(基于流模型的图像生成中提示词优化的强化学习框架),将语言模型作为可训练的提示词优化智能体直接嵌入基于流的强化学习优化循环。该设计产生两项互补优势:快速形成复杂的提示词重写能力,以及关键性地通过协同训练机制重塑优化动态。PromptRL在多项基准测试中实现顶尖性能,在GenEval上获得0.97分,OCR准确率达0.98,PickScore得分24.05。 此外,我们在大规模图像编辑模型上验证了该强化学习方法的有效性,仅用6万次迭代就将FLUX.1-Kontext的EditReward从1.19提升至1.43,超越得分为1.37的Gemini 2.5 Flash Image(亦称Nano Banana),并与依赖细粒度数据标注和复杂多阶段训练的ReasonNet(1.44分)性能相当。大量实验证实,相比纯流模型强化学习,PromptRL能持续达到更高性能上限,且所需迭代次数减少超2倍。代码已开源:https://github.com/G-U-N/UniRL。
稀疏自编码器(SAE)作为一种通过将激活分解为字典原子的稀疏组合来解读神经网络表征的有效方法,近年来备受关注。然而,SAE假设特征通过线性重构以加性方式组合,这一假设无法捕捉组合结构:线性模型无法区分"星巴克"究竟源于"星"与"咖啡"特征的组合,还是仅源于二者的共现。这迫使SAE为复合概念分配整体性特征,而非将其分解为可解释的构成要素。我们提出PolySAE方法,通过扩展SAE解码器的高阶项来建模特征交互,同时保留对可解释性至关重要的线性编码器。通过在共享投影子空间进行低秩张量分解,PolySAE以较小的参数开销(GPT2模型上为3%)捕获成对及三重特征交互。在四个语言模型和三种SAE变体的测试中,PolySAE在保持相当重构误差的同时,平均探测F1值提升约8%,且类别条件特征分布之间的Wasserstein距离扩大2-10倍。关键的是,学习到的交互权重与共现频率的相关性可忽略不计(r=0.06,而SAE特征协方差为r=0.82),表明多项式项捕获的组合结构(如形态绑定和短语组合)与表层统计量基本无关。
大型推理模型(LRMs)通过训练具有挑战性的竞赛级题目能获得显著收益。然而,现有自动化题目生成方法存在难度控制不精确、计算成本高、难以规模化生成竞赛级题目等问题。本文提出CoDiQ(可控难度题目生成)框架,通过测试时缩放实现细粒度难度控制,同时确保题目可解性。具体而言,我们首先发现测试时缩放趋势(扩展推理的token预算会提升难度但降低可解性),以及定义模型生成有效高难度题目能力上限的内在属性。接着基于Qwen3-8B开发CoDiQ生成器,该模型提升了高难度题目生成的能力上限,特别适合构建挑战性题目。基于CoDiQ框架,我们构建了包含4.4万条竞赛级题目序列的CoDiQ语料库。人工评估表明,这些题目相比LiveCodeBench/AIME显著更具挑战性,且保持超过82%的可解率。使用CoDiQ语料库训练LRMs能显著提升推理性能,验证了扩展可控难度训练题目可增强推理能力。我们开源CoDiQ语料库、CoDiQ生成器及相关实现以支持相关研究。
在流式场景下部署现代语音语言模型(SpeechLMs)需要系统具备低延迟、高吞吐量及强流式保障能力。现有系统难以灵活高效地支持多样化模型。我们提出VoxServe——一个为SpeechLMs优化的统一流式服务系统,通过模型执行抽象层将模型架构与系统级优化解耦,从而在单一框架内支持多种SpeechLM架构。基于此抽象层,VoxServe实现了流式感知调度与异步推理流水线,以提升端到端效率。在多个现代SpeechLM上的评估表明,在保持相当延迟的情况下,VoxServe的吞吐量较现有实现提升10-20倍,同时具备优异的流式可用性。项目代码已开源:https://github.com/vox-serve/vox-serve。
基於查詢的通用聲音分離是智能聽覺系統的基礎技術,其目標是從混合音頻中分離特定聲源。儘管近期取得進展,現有方法在複雜聲學場景中仍存在殘餘干擾問題。這一性能侷限主要源於數據瓶頸:真實場景數據集存在標籤弱監督性與事件嚴重共現現象,導致模型學習背景噪聲與目標類別間的虛假相關性,而非魯棒的聲學特徵。為解決此問題,我們提出自動化流程,通過語義一致性合成協議從真實數據集中挖掘高純度單事件片段,徹底消除事件共現。利用該流程構建的Hive數據集包含2400小時原始音頻,是具備高質量的合成數據集。實驗結果表明:與基於規模超Hive500倍的龐大數據集訓練的頂尖模型SAM-Audio相比,使用Hive訓練的某些開源模型在分離精度與感知質量上達到相當水平。此外,這些模型在分佈外評估基準上展現出卓越的零樣本泛化能力。這些發現證明:提升監督信號純度能顯著增強數據效率,為以更低計算成本訓練魯棒聽覺基礎模型提供新範式。代碼與數據集詳見https://shandaai.github.io/Hive。
多模态大语言模型(MLLMs)在处理高分辨率图像和视频场景时,常因视觉标记数量过多而面临高昂的计算成本。现有的标记缩减方法通常聚焦于孤立流程组件,且往往忽视文本对齐,导致性能下降。本文提出VisionTrim——一种无需训练的统一加速框架,集成两大即插即用模块:1)主导视觉标记选择(DVTS)模块,通过全局-局部视角保留关键视觉标记;2)文本引导视觉补全(TGVC)模块,基于文本线索实现上下文感知的标记融合。在多样化的图像与视频多模态基准测试中,大量实验证明了VisionTrim的性能优势,为实际应用中的MLLM部署提供了有效解决方案。代码已开源:https://github.com/hanxunyu/VisionTrim。
世界模型通过习得环境动态的内部表征,使得智能体能够在紧凑的潜在空间中模拟和推理未来状态,以完成规划、预测和推断等任务。然而运行世界模型需要高昂的计算成本与内存占用,这使得模型量化成为高效部署的关键技术。迄今为止,后训练量化对世界模型的影响尚未得到系统研究。本文以代表性模型DINO-WM为研究对象,在仅权重量化及权重-激活值联合量化两种设置下,对多种后训练量化方法展开系统性实证分析。我们在多种视觉规划任务上进行了大规模实验,覆盖不同比特位宽、量化粒度以及长达50步的规划跨度。实验结果表明:世界模型中的量化效应超越了传统的精度与比特位宽权衡关系——分组权重量化能稳定低比特推演过程,激活值量化粒度带来的收益具有不一致性,且编码器与预测器模块的量化敏感性呈现高度不对称性。此外,激进的低比特量化会显著破坏规划目标与任务成功率之间的对齐关系,导致无法通过额外优化弥补的失效现象。这些发现揭示了基于世界模型的规划任务中特有的量化诱发失效模式,为在严格计算约束下部署量化世界模型提供了实用指导。代码已发布于https://github.com/huawei-noah/noah-research/tree/master/QuantWM。
大型語言模型(LLMs)目前普遍通過提示詞工程被用作無參考評估器,但這種「LLM即評判」範式存在成本高昂、過程不透明且對提示設計敏感的侷限性。本研究探討小型模型能否通過利用內部表徵而非表面文本來充當高效評估器。我們發現了一個穩定的經驗規律:儘管生成能力較弱,小型語言模型的隱藏狀態中仍編碼了豐富的評估信號。據此提出「語義能力非對稱假說」:評估任務所需的語義能力遠低於生成任務,且可基於中間表徵實現,這表明評估不必依賴大規模生成模型,而能利用小型模型的潛在特徵。該發現推動了從「LLM即評判」到「表徵即評判」的範式轉變——這種免解碼的評估策略通過探測模型內部結構而非依賴提示輸出來實現。我們據此構建了INSPECTOR框架,該基於探測的架構可從小模型表徵中預測細粒度評估分數。在推理基準測試(GSM8K、MATH、GPQA)上的實驗表明,INSPECTOR顯著優於基於提示詞的小型模型,並能逼近完整LLM評判者的性能,同時為可擴展評估提供了更高效、可靠且可解釋的替代方案。
智能体化大型语言模型所要求的能动性,不仅在于正确回答问题,更需要具备自主设定目标与决策探索方向的自主性。我们将这种能力称为"探查型智能",以区别于仅能完成指定任务的"执行型智能"。数据科学领域为此提供了天然试验场——现实世界的数据分析始于原始数据而非明确查询,但现有基准测试鲜少关注这一特性。为此,我们提出开放式的深度数据研究任务,让大型语言模型自主从数据库中提取关键洞见,并建立基于核查表的大规模基准测试平台DDR-Bench以实现可验证评估。实验结果表明,尽管前沿模型展现出初步的能动性,但长周期探索仍具挑战。我们的分析强调,有效的探查型智能不仅依赖于智能体框架构建或单纯规模扩展,更取决于智能体模型的内在策略机制。
大型视觉语言模型(LVLM)在单图像任务中表现出色,但在处理多图像输入时性能会下降。其主要原因之一是跨图像信息泄露问题——模型难以区分不同图像间的信息。现有LVLM虽已采用分隔符标记每张图像的起止位置,但我们的分析表明这些标记未能有效阻断跨图像信息泄露。为提升其有效性,我们提出一种对分隔符标记的隐藏状态进行缩放的方法。该方法通过强化图像内部交互并限制不必要的跨图像交互,增强了模型保留图像特定信息的能力,从而使模型能更好地区分图像并进行更精准的推理。实验结果表明,该方法在Mantis、MuirBench、MIRB和QBench2等多图像基准测试中均取得性能提升。我们进一步在需要清晰区分的纯文本任务上评估本方法,其在TQABench、MultiNews和WCEP-10等多文档/多表格理解基准测试中同样表现出性能改进。值得注意的是,该方法无需增加任何训练或推理成本。
具備可驗證獎勵的強化學習(RLVR)在提升大型語言模型推理能力方面展現出巨大潛力。然而,由於RLVR過程中提供的資訊有限,模型只能進行近乎盲目的探索,這往往導致其在應對複雜問題時失敗。為了在不依賴教師模型的前提下為RLVR過程提供額外資訊,我們提出A²D方法——一種增強RLVR效應的自適應能力分解技術。具體而言,我們首先通過無蒸餾的RLVR訓練分解器,使其能將複雜問題分解為一系列簡單子問題;接著利用該分解器為訓練數據集中的每個問題標註子問題,並在子問題引導下通過RLVR訓練推理器。為深入理解A²D,我們先將其性能與競爭基準進行對比以驗證有效性,進而發現該方法可作為即插即用模組應用於不同RLVR算法。此外,我們對分解器展開分析,揭示了RLVR過程如何影響其性能與行為模式,以及何種引導方式更能強化推理器的探索與利用能力。
基於多視角RGB影像的三維線段建圖技術能夠提供緊湊且結構化的場景視覺表徵。我們從物理與拓撲學視角重新審視該問題:三維線段最本質的起源是有限三維平面塊的邊緣。本文提出LiP-Map——一種顯式建模可學習線基元與平面基元的聯合優化框架,這種耦合機制在保證高效重建(單場景通常僅需3-5分鐘)的同時,實現了精細化的三維線段建圖。LiP-Map率先將平面拓撲結構融入三維線段建圖,並非通過施加成對共面約束,而是通過顯式構建平面與線基元間的相互作用,為人造環境中的結構化重建提供了理論完備的解決路徑。在ScanNetV2、ScanNet++、Hypersim、7Scenes和Tanks&Temple等數據集的超百個場景測試中,本方法在精度與完整性上均超越現有頂尖技術。除線段建圖質量外,LiP-Map在線段輔助視覺定位任務中取得顯著突破,於7Scenes數據集上建立了優異的性能基準。為推動可重現研究,我們已開源代碼:https://github.com/calmke/LiPMAP。
近期研究表明,层剪枝技术能够在极少或无需微调的情况下压缩大语言模型(LLMs),同时保持其在分类基准测试中的强劲性能。然而,现有剪枝方法在生成式推理任务上往往出现严重性能衰退。通过对多个模型系列的系统性研究,我们发现需要多步推理的任务对深度削减尤为敏感。除表层文本质量退化外,我们还观察到关键算法能力的衰减,包括数学推理中的算术运算能力与代码合成中的平衡括号生成能力。在现实的后训练约束条件下(即无法获取预训练规模的数据或算力),我们评估了一种基于自生成回答的监督微调简易缓解策略。该方法在分类任务上实现了强劲的性能恢复,可保留基线性能的90%,并在生成式基准测试中较现有后剪枝技术获得20-30个百分点的显著提升。值得注意的是,尽管取得这些进展,生成式推理的恢复效果相对于分类任务仍存在根本性局限,且主要适用于较低剪枝比例的场景。总体而言,我们界定了层剪枝在生成式推理领域的实际应用边界,并为在受限后训练机制下如何有效实施深度削减提供了实践指引。
知識蒸餾為將大型教師模型的推理能力遷移至高效能學生模型提供了可行路徑,然而現有的詞元級在線蒸餷方法要求師生模型間保持詞元級對齊,這不僅限制了學生模型的探索能力,阻礙了交互環境反饋的有效利用,還在強化學習中面臨嚴重的記憶體瓶頸。我們提出在線語義蒸餾(OVD)這一記憶體高效框架,通過採用教師模型給出的離散語義評分(0-9分)進行軌跡匹配,取代傳統的詞元級概率匹配。OVD在實現基於語義反饋的在線蒸餾同時,顯著降低了記憶體消耗,並通過避免詞元級對齊使學生模型能自由探索輸出空間。在網絡問答和數學推理任務上的大量實驗表明,OVD顯著優於現有方法——在網絡問答任務中平均精確匹配率絕對提升達12.9%,數學基準測試中最高提升達25.7%(僅使用單個隨機樣本訓練時),同時展現出更優的訓練效率。項目頁面請訪問:https://OVD.github.io
推理时计算已重新成为提升大语言模型推理能力的实用方法。多数测试时缩放算法依赖自回归解码,这种机制与离散扩散语言模型的全序列并行解码特性不相容。因此,开发高效测试时缩放方法以释放离散扩散语言模型的全部生成潜力,仍是探索不足的挑战。为此,我们提出Prism(剪枝、重掩码与集成自验证方法),这是一个针对离散扩散语言模型的高效测试时缩放框架,其具备三大核心机制:(一)执行分层轨迹搜索,在去噪过程的前中期动态剪枝并重新分配计算资源;(二)引入局部分支与部分重掩码技术,在保留高置信度标记的同时探索多样化实现路径;(三)通过中间生成结果的自评估提示获取自验证反馈,替代外部验证器。在LLaDA 8B Instruct、Dream 7B Instruct和LLaDA 2.0-mini三种离散扩散语言模型上进行的数学推理与代码生成四项基准测试表明,Prism实现了优越的性能-效率平衡,能以显著更少的函数评估次数达到最优N选性能。代码已发布于https://github.com/viiika/Prism。
尽管大语言模型(LLM)已成为人工智能领域的重要突破,但其训练所需的硬件与计算成本也构成显著负担。在当前主流优化器中,AdamW依赖对角曲率估计而忽略结构特性,Muon则通过全局谱归一化牺牲了曲率信息。本研究重新审视了流形优化方法在LLM训练中的应用——传统流形优化方法虽因在大规模模型中的表现不佳长期被忽视,但可能同时解决上述两种优化器的局限性。通过创新性地将动量投影至模型参数的切空间并约束于旋转斜交流形,我们提出了一种新颖高效且功能强大的优化器**Mano**,首次弥合了流形优化与现代优化器之间的性能鸿沟。基于LLaMA和Qwen3模型的广泛实验表明,Mano在分别减少内存消耗与计算复杂度的前提下,仍能持续显著超越AdamW和Muon,从而在时空效率维度拓展了帕累托前沿。
扩散变换器是视频与图像生成的基础模型,但其效率受限于注意力机制的二次复杂度。虽然块稀疏注意力通过仅关注关键键值块来加速计算,但在高稀疏度下会因丢弃上下文信息而导致性能下降。本研究发现,非关键块的注意力分数具有分布稳定性,可被精确高效地近似而非直接丢弃,这一发现对稀疏注意力设计至关重要。基于此关键洞见,我们提出PISA——一种免训练的分段稀疏注意力机制,能以次二次复杂度覆盖完整注意力范围。与传统“保留或丢弃”范式直接舍弃非关键块信息不同,PISA引入创新的“精确或近似”策略:对关键块保持精确计算,同时通过分块泰勒展开高效近似其余部分。该设计使PISA能作为完整注意力的可靠代理,有效弥合速度与质量之间的差距。实验结果表明,在Wan2.1-14B和Hunyuan-Video模型上,PISA分别实现1.91倍和2.57倍加速,同时在稀疏注意力方法中始终保持最高质量。值得注意的是,即使在FLUX模型上进行图像生成,PISA也能实现1.2倍加速且不影响视觉质量。代码已开源:https://github.com/xie-lab-ml/piecewise-sparse-attention。
我們研究了表徵幾何與神經網絡性能之間的關係。通過分析涵蓋13種架構家族的52個預訓練ImageNet模型,我們發現有效維度——一種無監督的幾何度量指標——能強力預測模型準確率。在控制模型容量後,輸出有效維度達到偏相關r=0.75(p < 10^(-10)),而總壓縮度則呈現偏相關r=-0.72。這些發現同時在ImageNet和CIFAR-10數據集上得到驗證,並可推廣至自然語言處理領域:有效維度能預測8個編碼器模型在SST-2/MNLI任務中的性能,以及15個僅解碼器大型語言模型在AG News任務中的表現(r=0.69, p=0.004),而模型規模則無此預測能力(r=0.07)。我們建立了雙向因果關係:通過噪聲干擾降低幾何質量會導致準確率下降(r=-0.94, p < 10^(-9)),而通過主成分分析改善幾何結構可在保持95%方差的情況下使各架構準確率波動僅為-0.03個百分點。這種關係具有噪聲類型無關性——高斯噪聲、均勻噪聲、丟棄噪聲和椒鹽噪聲均顯示|r| > 0.90。這些結果證實,有效維度能提供與領域無關的、關於神經網絡性能的預測性和因果性信息,且完全無需標籤即可計算。
強化學習已成為大型語言模型後訓練階段的關鍵技術,但主流算法依賴的剪裁機制在規模化應用中會引發優化問題,包括零梯度區域、獎勵攻擊和訓練不穩定性。我們提出無剪裁策略優化(CFPO)方法,通過基於全變差散度約束的凸二次懲罰項替代啟發式剪裁,形成處處可微的目標函數,在無需硬邊界的情況下實現穩定策略更新。我們在推理任務和對齊任務中對CFPO進行評估:在推理場景中,CFPO在下游基準測試中與基於剪裁的方法表現相當,同時拓展了穩定訓練區間;在對齊場景中,該方法能有效緩解冗餘表達投機行為並降低能力退化,同時保持具有競爭力的指令遵循性能。CFPO僅需單行代碼修改且無需新增超參數。實驗結果表明,CFPO有望成為基於剪裁的LLM後訓練方法的無縫替代方案。
现有工具集成推理(TIR)模型通过引入外部工具有效扩展了大语言模型的问答能力。然而,现实场景中存在大量开放性问题,固定工具往往难以满足任务需求。此外,由于缺乏自优化机制,错误的工具输出可能误导大语言模型的响应。现有工具的构建还需耗费大量人工成本,这进一步制约了其适用性。基于大语言模型的推理轨迹蕴含隐性问题解决能力这一发现,我们提出UCT——一种无需训练的新型框架,将智能体从工具使用者转变为工具创造者。该方法通过积累推理经验并将其提炼为可复用资产,使智能体能在推理过程中实现自适应工具创建与自我更新。我们还引入了记忆巩固机制来维护工具库,确保保留的经验记忆对后续推理任务具有高度可复用性。这种新型自动化工具构建范式能在推理过程中持续提升工具质量,使得整个智能体系统无需额外训练即可持续进化。大量实验表明,我们的方法为增强TIR模型能力提供了新范式。特别是在多领域数学与科学推理任务基准测试中取得的显著性能提升(+20.86%↑和+23.04%↑),验证了智能体的自我进化能力。
在现实应用场景中,具备文化认知的防护机制对人工智能对齐至关重要——此时安全性已超越常识范畴,需涵盖多元的地方价值观、社会规范及区域性法规。然而受限于资源匮乏与母语标注员稀缺,构建大规模文化根基数据集面临挑战,导致多数防护模型依赖英语数据集的机器翻译结果,往往缺失地域文化特质。我们提出一种创新的智能体数据生成框架,可规模化创建适用于东南亚地区的本土化安全数据集。基于此,我们推出SEA-Guard系列模型,这是首个植根于东南亚文化背景的多语言防护模型。经多基准测试与文化变体评估,SEA-Guard在识别区域敏感性或有害内容方面持续优于现有防护模型,同时保持卓越的通用安全性能。
强化学习虽然能增强大型语言模型的推理能力,但由于需要大量迭代优化,往往伴随着高昂的计算成本。在线提示选择技术通过优先选用信息量丰富的提示来提升训练效率,为此提供了可行的解决方案。然而现有方法要么依赖成本高昂的精确评估,要么构建缺乏跨提示泛化能力的特定预测模型。本研究提出可泛化预测式提示选择方法(GPS),利用基于共享优化历史训练的轻量级生成模型,对提示难度进行贝叶斯推断。该方法将中等难度优先原则与历史锚定多样性策略融入批量获取机制,从而筛选出信息量丰富的提示批次。这种小型预测模型在测试阶段同样具备泛化能力,可实现高效的计算资源分配。在多种推理基准测试中的实验表明,GPS在训练效率、最终性能及测试时效方面均显著优于现有先进基线方法。
引言:不同行動者與利害關係群體對人工智慧倫理的框架界定存在顯著差異。本文透過OpenAI的個案研究,分析其倫理AI論述的演變軌跡。研究方法:我們針對「OpenAI如何隨時間推移在公開論述中運用『倫理』、『安全』、『對齊』及相關概念?此論述如何反映其實踐中的框架取向?」這一核心問題,建立區分大眾傳播與學術溝通的結構化語料庫,收錄範圍涵蓋所有公開文獻。分析過程:結合歸納推導與演繹應用的編碼系統,對倫理主題進行質性內容分析;同時運用自然語言處理的計算內容分析法,透過量化建模追蹤修辭策略的時序演變,並以可視化形式呈現聚合結果。為確保研究可重現性,我們已公開分析代碼(https://github.com/famous-blue-raincoat/AI_Ethics_Discourse)。研究發現:OpenAI的公開溝通與文件紀錄主要聚焦安全與風險論述,而未採用學術界與倡議團體的倫理框架或詞彙體系。結論:本文闡述此現象對治理機制的啟示,並探討產業界存在的倫理漂白(ethics-washing)實踐現象。
大型语言模型(LLMs)正日益被用作评估智能体性能的裁判,尤其在不可验证的场景中——这类场景的判断需依赖包含思维链(CoT)推理的智能体轨迹。该范式隐含着一个假设:智能体的思维链能如实反映其内部推理过程及底层环境状态。我们证明这一假设具有脆弱性:LLM裁判极易受到智能体推理轨迹篡改的影响。通过系统性地重写智能体思维链同时保持行动与观察不变,我们在涵盖多样化网络任务的800条轨迹中发现,仅凭被篡改的推理就可使最先进的VLM裁判的误判率最高提升90%。我们研究了两种篡改策略:仅改变推理呈现方式的风格型策略,以及伪造任务进展信号的内容型策略,发现内容型策略始终更具误导性。基于提示词的技术增强与增加裁判时计算资源的方法虽能降低受篡改影响的敏感性,但无法完全消除此漏洞。我们的研究揭示了基于LLM评估机制的根本性缺陷,并强调需要建立能通过可观测证据验证推理主张的新型评判机制。
基于深度学习的现代图像修复技术能够实现逼真的局部图像操控,这对可靠检测提出了严峻挑战。然而我们发现,当前检测器主要依赖作为修复副产物出现的全局伪影,而非局部合成内容。我们证明这种现象源于VAE重建会引发包括未编辑区域在内的整幅图像出现微妙但普遍的光谱偏移。为分离这种效应,我们提出了修复交换操作(INP-X),该操作可在保留所有合成内容的同时恢复编辑区域外的原始像素。我们构建了包含9万张真实图像、修复图像及交换图像的测试数据集以评估该现象。在此干预下,包括商业检测器在内的预训练顶尖检测器准确率急剧下降(例如从91%降至55%),经常趋近随机猜测水平。我们通过理论分析将这种现象与VAE信息瓶颈导致的高频衰减联系起来。研究结果凸显了内容感知检测的必要性——事实上,使用本数据集训练的模型比标准修复检测具有更好的泛化能力和定位精度。我们的数据集和代码已公开于https://github.com/emirhanbilgic/INP-X。
多智能体系统已成为自动化科学发现的重要范式。为区分系统中各智能体的行为,现有框架通常采用基于通用角色的设定(如"评审员"或"撰稿人"),或依赖粗粒度的关键词标签。虽然功能可行,但这种方法过度简化了人类科研人员的工作方式——他们的学术贡献实则由其独特的研究轨迹塑造而成。为此,我们提出INDIBATOR分子发现框架,通过双模态数据为智能体构建个性化科学家画像:基于文献知识的发表历史记录和基于结构先验的分子研究历程。这些智能体通过提案、批判和投票三个阶段展开多轮辩论。评估结果表明,基于细粒度个体特征的智能体系统持续优于粗粒度角色设定方案,达到具有竞争力或最先进的性能水平。这些发现验证了捕捉个体智能体"科学DNA"对实现高质量科学发现的重要性。
通用开放域稠密检索系统通常使用庞杂的语料库和搜索任务组合进行训练。应如何对这些异构语料库和任务进行训练采样?传统方法采用均匀采样、按实例数量比例采样或依赖专家级人工监督。众所周知,训练数据采样策略会显著影响模型性能,但在嵌入模型背景下如何寻找最优策略尚未得到充分研究。我们提出Inf-DDS——一种基于强化学习的自适应采样框架,通过影响力驱动的奖励信号动态调整训练数据集权重,且GPU消耗更为轻量。该技术通过迭代优化采样策略,优先选择能最大化目标开发集模型性能的数据集。我们在广泛文本检索任务上验证了采样策略的有效性:相较于基于梯度的采样方法,检索性能显著提升且适应能力更强,同时GPU计算成本降低1.5至4倍。在训练多语言bge-m3模型时,我们的策略实现了NDCG@10指标5.03的绝对提升;训练all-MiniLM-L6-v2模型时NDCG@10提升0.94,即使初始权重已由专家在大规模训练数据集上分配。
大型语言模型(LLM)的跨语言评估通常混淆了两个变异源:真实的模型性能差异与测量不稳定性。我们通过固定生成条件、变换目标语言来探究评估可靠性。利用在爱沙尼亚语、芬兰语和匈牙利语中采用相同参数生成的合成客服对话数据,我们检验了自动指标与LLM-as-a-judge评分能否在这三种形态丰富、同属芬兰-乌戈尔语系的语言间产生稳定的模型排名。以少量爱沙尼亚语母语者标注为参照,我们发现系统性排名不稳定现象:表层指标(词汇多样性、表层及语义相似度)保持跨语言稳定性,但语用判断(连贯性、指令遵循度)出现排名倒置及接近零相关。由于生成过程受控,这些不一致反映的是评判标准在不同语言间的差异性表现,而非真实的模型差异。 这种受控设计提供了一种诊断工具:在相同生成条件下无法保持稳定性的评估方法,预示着部署前存在迁移失败风险。我们的研究结果表明,零样本评判迁移对于形态丰富语言的语篇级评估不可靠,这强调需要针对特定语言以人类标注为基准进行校准。我们在https://github.com/isaac-chung/cross-lingual-stability-judges 发布了受控生成协议、合成数据及评估框架,以支持在不同语系中复现研究。
本文提出YOLOE-26——一个将部署优化的YOLO26(或称YOLOv26)架构与YOLOE开放词汇学习范式相融合的实时开放词汇实例分割统一框架。该方案基于YOLOv26无需非极大值抑制的端到端设计,在保留YOLO系列标志性高效性与确定性的同时,将模型能力扩展至封闭集识别之外。YOLOE-26采用卷积主干网络配合PAN/FPN式多尺度特征聚合,后接端到端回归头与实例分割头。其核心架构创新在于使用物体嵌入头替代固定类别逻辑值,将分类任务转化为与文本描述、视觉示例或内置词汇表生成的提示嵌入进行相似度匹配。为实现高效开放词汇推理,框架集成三大组件:零开销文本提示的可重参数化区域-文本对齐模块(RepRTA)、示例引导分割的语义激活视觉提示编码器(SAVPE),以及无需提示推理的惰性区域提示对比机制。所有提示模态均在统一物体嵌入空间中运行,支持文本提示、视觉提示与全自主分割模式的无缝切换。大量实验表明,在不同模型规模下,无论采用提示或无需提示设置,该框架均呈现一致的缩放特性与优越的精度-效率平衡。训练策略通过多任务优化利用大规模检测与定位数据集,并完全兼容Ultralytics生态的训练、验证及部署流程。总体而言,YOLOE-26为动态现实场景中的实时开放词汇实例分割提供了实用且可扩展的解决方案。
储层计算(RC)已成为时序处理的高效范式,但其可扩展性仍受两大因素严重制约:(一)时序数据必须顺序处理;(二)高维储层的内存占用量过大。本研究通过结构化算子和状态空间建模的视角重新审视RC,提出并行回声状态网络(ParalESN)以突破这些局限。ParalESN基于复数空间中的对角线性递归构造高维高效储层,实现了时序数据的并行处理。理论分析表明,ParalESN不仅保留了传统回声状态网络的回声状态特性和普适性保证,还能将任意线性储层等价表示为复数对角形式。实验验证显示,ParalESN在时间序列基准测试中达到了传统RC的预测精度,同时显著降低了计算开销。在一维像素级分类任务中,ParalESN在实现与全可训练神经网络相当精度的同时,将计算成本和能耗降低了数个数量级。总体而言,ParalESN为将RC整合进深度学习领域提供了一条具有前景、可扩展且理论完备的技术路径。
隱式神經表示(INR)在多個領域已被證實具有精確高效的特性。本研究探討如何將不同神經網絡設計為新型紋理INR,該表示在輸入的UV座標空間中採用連續運算模式而非離散方式。透過系統性實驗,我們證明這些INR在影像質量方面表現優異,同時具備可觀的記憶體使用效率與渲染推理速度。本文深入分析了這些性能指標間的平衡關係,並進一步探索了在即時渲染與下游任務中的多種相關應用,例如mipmap擬合與INR空間生成。
大型语言模型生成的流畅回答可能偏离所提供语境,而现有保障机制多依赖生成后的外部验证或独立判别器。我们提出一种基于内部流特征的方法,通过固定块间监测边界上的深度动态来审计决策形成过程。该方法采用偏置中心监测稳定词元级运动,随后在紧凑的移动读取对齐子空间内汇总轨迹——这些子空间由每个深度窗口内的顶级词元及其紧邻竞争者构建。通过正交传输实现相邻窗口帧的对齐,生成可进行深度比较的传输步长、转向角及子空间漂移摘要,这些指标对窗口内基向量选择具有不变性。基于这些特征训练的轻量级GRU验证器可实现不修改基础模型的自我核查。除检测功能外,该验证器能定位问题深度事件并实现靶向优化:模型回滚至问题词元,在识别出的模块处钳制异常传输步长,同时保留正交残差。最终构建的流程可从内部决策动态中提供可操作的定位功能与低开销自我核查。代码详见github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs。
我们提出抛物线位置编码(PaPE),一种基于抛物线、适用于注意力架构中视觉模态的位置编码方法。针对图像、点云、视频或事件相机流等视觉标记集合,我们的目标是在编码其位置时兼顾视觉模态的特性。现有研究大多将语言模型中一维序列的位置编码扩展至视觉领域的n维结构,但仅部分考虑了视觉特性。我们通过从先前研究中提炼的设计原则来填补这一空白:平移不变性、旋转不变性(PaPE-RI)、距离衰减、方向性和上下文感知。我们在涵盖4种模态的8个数据集上评估PaPE,发现PaPE或PaPE-RI在7个数据集上均取得最优性能。ImageNet-1K的外推实验表明,PaPE具有卓越的外推能力,其绝对性能较次优位置编码提升最高达10.5%。代码已发布于https://github.com/DTU-PAS/parabolic-position-encoding。
尽管大语言模型即评委(LLM-as-a-Judge)技术已被广泛应用于自动化评估,但现有的验证实践主要停留在观测输出层面,难以深入揭示LLM评委是否具备稳定可靠的测量工具特性。为突破这一局限,我们基于项目反应理论(IRT)提出了一个两阶段诊断框架,用于评估LLM即评委的可靠性。该框架采用IRT的等级反应模型(GRM),从两个互补维度对可靠性进行形式化定义:(1)内在一致性,即提示词变化下测量行为的稳定性;(2)人类对齐度,反映模型评估与人类质量判断的吻合程度。我们通过该框架对多种LLM评委展开实证研究,结果表明采用IRT-GRM方法可为系统性诊断评估结果生成可解释的信号。这些信号为验证LLM即评委的可靠性及识别不可靠性的潜在成因提供了实用指导。