HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

48 papers found

時空TTT：基於串流視覺的空間智能與測試時訓練
Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

Mar 12

ByFangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan

人類透過連續的視覺觀測來感知和理解現實空間。因此，從潛在無限的影片串流中持續維護並更新空間證據的能力，對於空間智能至關重要。核心挑戰不僅在於更長的上下文窗口，更在於如何隨時間選擇、組織和保留空間資訊。本文提出基於測試時訓練的串流視覺空間智能方法Spatial-TTT，該方法通過調整部分參數（快速權重）來捕捉並組織長時序場景影片中的空間證據。具體而言，我們設計了混合架構，採用大區塊更新與滑動窗口注意力並行的機制，以實現高效的空間影片處理。為進一步增強空間感知能力，我們在TTT層引入結合3D時空卷積的空間預測機制，促使模型捕捉跨幀的幾何對應關係與時間連續性。除架構設計外，我們構建了帶有密集3D空間描述的數據集，引導模型通過快速權重更新以結構化方式記憶並組織全域3D空間信號。大量實驗表明，Spatial-TTT能提升長時序空間理解能力，並在影片空間基準測試中達到最先進性能。項目頁面：https://liuff19.github.io/Spatial-TTT。

戰略導航還是隨機搜索？智能體與人類在文檔集合上的推理方式比較
Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Mar 12

ByŁukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta

多模態代理為自動化複雜文件密集型工作流程提供了前景廣闊的路徑。然而，一個關鍵問題依然存在：這些代理展現的是真正的策略性推理，抑或僅是隨機試錯式搜索？為此，我們提出MADQA基準測試，包含基於800份異質性PDF文檔構建的2,250道人編寫問題。以經典測驗理論為指導，我們通過最大化不同智能水平代理的區分度來設計此基準。為評估代理行為，我們引入創新評估協議以衡量準確性與耗能間的權衡關係。透過此框架，我們發現儘管頂尖代理在原始準確度上能媲美人類搜索者，但其成功解答的問題類型存在顯著差異，且依賴暴力搜索來彌補策略規劃能力的不足。這些代理未能縮小與理想性能間近20%的差距，反而持續陷入低效循環。我們公開數據集與評估工具包，以助力實現從暴力檢索到精準高效推理的轉型。

IndexCache：透過跨層索引重複使用加速稀疏注意力機制
IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Mar 12

ByYushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li

長上下文代理工作流已成為大型語言模型的關鍵應用場景，這使得注意力效率對推理速度和服務成本至關重要。稀疏注意力能有效解決這一挑戰，其中DeepSeek稀疏注意力（DSA）是具代表性的生產級解決方案：其輕量級閃電索引器會為每個查詢選取前k個最相關的標記，將核心注意力計算複雜度從O(L²)降至O(Lk)。然而索引器本身仍保持O(L²)複雜度，且需在每個層獨立運行，儘管相鄰層產生的前k選擇具有高度相似性。我們提出IndexCache技術，通過將網絡層劃分為兩類來利用這種跨層冗餘：少量完整層運行獨立索引器，多數共享層則直接復用最近完整層的前k索引。我們提出兩種互補的配置優化方法：免訓練的IndexCache採用貪婪搜索算法，通過在校準集上直接最小化語言建模損失來選擇保留索引器的層，無需權重更新；支持訓練的IndexCache引入多層蒸餾損失，使每個保留的索引器針對其服務的所有層的平均注意力分佈進行訓練，即使簡單交錯層模式也能匹配全索引器精度。在30B參數DSA模型上的實驗表明，IndexCache可消除75%的索引器計算且質量損失可忽略不計，相比標準DSA實現預填充階段最高加速1.82倍，解碼階段加速1.48倍。我們在生產級GLM-5模型上的初步實驗進一步驗證了這些積極成果（圖1）。

基於影片回饋建模的電腦使用代理程式
Video-Based Reward Modeling for Computer-Use Agents

Mar 10

ByLinxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao

儘管電腦使用代理（CUA）的能力日益增強，但如何有效評估其執行軌跡是否真實符合使用者指令仍存在擴展性難題。本研究專注於基於執行影片的獎勵建模：透過從代理軌跡中提取關鍵影格序列，該方法獨立於代理的內部推理或操作行為。雖然影片執行建模具有方法無關性，但仍面臨關鍵挑戰，包括高度冗餘的界面佈局與決定成敗的細微局部線索。我們提出Execution Video Reward 53k（ExeVR-53k）資料集，包含5.3萬組高品質的影片-任務-獎勵三元組，並透過對抗式指令轉譯技術合成帶有步驟級註釋的負樣本。為實現對長時序高解析度執行影片的學習，我們設計時空標記修剪技術，在保留決定性UI變化的同時去除同質化區域與持續性標記。基於這些組件，我們微調出僅需使用者指令與影片執行序列即可預測任務成功率的執行影片獎勵模型（ExeVRM）。我們的ExeVRM 8B模型在影片執行評估中達到84.7%準確率與87.7%召回率，於Ubuntu、macOS、Windows及Android四大平台均勝過GPT-5.2與Gemini-3 Pro等強力專有模型，且提供更精準的時間歸因。這些成果證明影片執行獎勵建模可作為CUA的可擴展、模型無關評估方案。

ShotVerse：推动文本驱动多镜头视频创作的电影级镜头控制技术
ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation

Mar 12

BySonglin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao

文本驅動的影片生成技術已大幅降低了影像創作門檻，但在電影級多鏡頭場景中，攝影機控制仍是關鍵難題。隱性文本提示缺乏精確度，而顯性軌跡約束不僅需要大量人工操作，在現有模型中還容易引發執行錯誤。為突破此瓶頸，我們提出以數據為核心的範式轉變：通過對齊的（描述文本、運鏡軌跡、影片）三元組構建內在聯合分佈，從而串聯自動化分鏡規劃與精準執行。基於此洞見，我們推出ShotVerse——採用「先規劃後控制」框架的系統，將生成過程解耦為兩個協同智能體：基於視覺語言模型的規劃器利用空間先驗知識，從文本生成具有電影感且全局對齊的運鏡軌跡；控制器則通過攝影機適配器將這些軌跡渲染為多鏡頭影片內容。該方法的核心在於數據基礎建設：我們設計了自動化多鏡頭攝影機標定流程，能將離散單鏡頭軌跡整合至統一全局座標系，據此構建包含三軌評估協議的高擬真電影數據集ShotVerse-Bench作為框架基石。大量實驗表明，ShotVerse有效彌合了不可靠的文本控制與勞動密集型人工規劃之間的鴻溝，在實現優越電影美學的同時，能生成運鏡精準且跨鏡頭連貫的多鏡頭影片。

XSkill：多模态智能体从经验与技能中持续学习
XSkill: Continual Learning from Experience and Skills in Multimodal Agents

Mar 12

ByGuanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R., Fung

多模態智能體現已能運用多樣化工具處理複雜推理任務，但在開放式情境下仍存在工具使用效率低下與協調機制僵化的問題。實現此類智能體無需參數更新即可從過往軌跡中持續學習的關鍵挑戰在於：如何有效提取兩種互補的可重用知識——提供工具選擇與決策的行動級精要指導的「經驗」，以及提供規劃與工具使用的任務級結構化指導的「技能」。為此，我們提出雙流架構XSkill，實現多模態智能體從經驗與技能中持續學習的機制。該框架將知識提取與檢索過程錨定於視覺觀測：在積累階段，通過視覺錨定式摘要與跨軌跡批判，從多路徑推演中提煉並鞏固經驗與技能；在推理階段，根據當前視覺語境檢索並調適此類知識，同時將使用記錄反饋至積累環節，形成持續學習閉環。在四大骨幹模型上對五個跨領域基準的評估表明，XSkill始終顯著優於純工具型與基於學習的對照方法。進一步分析揭示，兩種知識流通過互補方式影響智能體推理行為，並展現出卓越的零樣本泛化能力。

DreamVideo-Omni：基於潛在身份強化學習的全域運動控制多主體影片客製化技術
DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Mar 12

ByYujie Wei, Xinyu Liu, Shiwei Zhang, Hangjie Yuan, Jinbo Xing, Zhekai Chen, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Ruihang Chu, Yingya Zhang, Yike Guo, Xihui Liu, Hongming Shan

雖然大規模擴散模型已徹底改變了影片合成技術，但實現對多主體身份與多粒度運動的精確控制仍是重大挑戰。近期嘗試彌合此差距的研究往往存在運動粒度有限、控制模糊性及身份退化等問題，導致身份保持與運動控制的表現未達最佳。本研究提出DreamVideo-Omni——一個通過漸進式兩階段訓練範式實現和諧多主體定制與全向運動控制的統一框架。在第一階段，我們整合了包含主體外觀、全局運動、局部動態及攝影機運動的綜合控制信號進行聯合訓練。為確保強健且精確的可控性，我們引入條件感知的3D旋轉位置嵌入來協調異構輸入，並採用分層運動注入策略以增強全局運動引導。此外，為解決多主體模糊性，我們設計群組與角色嵌入機制，將運動信號顯式錨定於特定身份，有效將複雜場景解構為獨立可控實例。在第二階段，為緩解身份退化問題，我們基於預訓練影片擴散骨架訓練潛在身份獎勵模型，設計潛在身份獎勵反饋學習範式。該方法在潛在空間中提供運動感知的身份獎勵，優先保障符合人類偏好的身份保持效果。憑藉我們策劃的大規模數據集及用於多主體全向運動控制評估的綜合DreamOmni基準，DreamVideo-Omni在生成具精確可控性的高品質影片方面展現出卓越性能。

DVD：基於生成先驗的確定性影片深度估計
DVD: Deterministic Video Depth Estimation with Generative Priors

Mar 12

ByHongfei Zhang, Harold Haodong Chen, Chenfei Liao, Jing He, Zixin Zhang, Haodong Li, Yihao Liang, Kanghao Chen, Bin Ren, Xu Zheng, Shuai Yang, Kun Zhou, Yinchuan Li, Nicu Sebe, Ying-Cong Chen

現有影片深度估計面臨一個根本性取捨難題：生成式模型易受隨機幾何幻覺和尺度漂移影響，而判別式模型需依賴大規模標註數據集才能解決語義歧義。為突破此困境，我們提出DVD框架——首個將預訓練影片擴散模型確定性改造成單次推斷深度回歸器的方案。具體而言，DVD具備三項核心設計：（i）重新利用擴散時間步作為結構錨點，平衡全局穩定性與高頻細節；（ii）潛在流形校正技術，通過施加微分約束抑制回歸導致的過度平滑，恢復銳利邊界與連貫運動；（iii）全局仿射一致性這一內在特性，可約束視窗間發散度，實現無需複雜時間對齊的長影片無縫推斷。大量實驗表明，DVD在跨基準測試中實現了最先進的零樣本性能。更值得注意的是，DVD僅需使用領先基準方法1/163的任務專用數據，便能成功釋放影片基礎模型中隱含的深層幾何先驗。我們已完整開源整個訓練套件，為開源社群提供現今最優的影片深度估計全流程解決方案。

WeEdit：一個面向文字中心影像編輯的資料集、基準與字形引導框架
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

Mar 12

ByHui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang

基於指令的圖像編輯旨在根據使用者提供的指令修改現有圖像中的特定內容，同時保留非目標區域。相較於傳統以物件和風格為核心的操控方式，以文字為核心的圖像編輯專注於修改、翻譯或重排嵌入圖像中的文字元素。然而，現有主流模型往往難以精確執行複雜的文字編輯任務，常產生模糊或虛構的字元。我們認為這些失敗主要源於缺乏針對文字中心編輯的專用訓練範式，以及封閉迴圈訓練與評估系統所需的大規模資料集和標準化基準。為解決這些侷限，我們提出 WeEdit——一個涵蓋可擴展資料建構流程、兩套基準測試及定制化兩階段訓練策略的系統化解決方案。具體而言，我們設計了基於HTML的新型自動編輯流程，生成包含15種語言、覆蓋多樣編輯操作的33萬組訓練資料對，並配套標準化的雙語與多語言基準用於全面評估。在演算法層面，我們採用字形引導的監督微調來注入顯式空間與內容先驗知識，隨後通過多目標強化學習階段對齊生成結果與指令遵循度、文字清晰度及背景保留度。大量實驗表明，WeEdit在多種編輯操作中均以明顯優勢超越先前開源模型。

信任你的評判者：實現忠實圖像編輯與生成的穩健獎勵建模及強化學習
Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Mar 12

ByXiangyu Zhao, Peiyuan Zhang, Junming Lin, Tianhao Liang, Yuchen Duan, Shengyuan Ding, Changyao Tian, Yuhang Zang, Junchi Yan, Xue Yang

強化學習（RL）已成為提升影像編輯與文字轉圖像（T2I）生成技術的潛力範式。然而，當前在強化學習中擔任評判角色的獎勵模型常出現幻覺問題，產生雜訊評分，從而誤導優化過程。本文提出FIRM（忠實影像獎勵建模）框架，透過建構穩健的獎勵模型，為忠實的影像生成與編輯提供精確可靠的指導。首先，我們設計專屬資料篩選流程來建構高品質評分資料集：針對編輯任務同時評估執行效果與一致性，而生成任務則主要檢視指令遵循程度。據此我們收集了FIRM-Edit-370K與FIRM-Gen-293K資料集，並訓練出能精準反映這些標準的專用獎勵模型（FIRM-Edit-8B與FIRM-Gen-8B）。其次，我們推出專為編輯與生成評判設計的綜合基準測試FIRM-Bench。實驗顯示，相比現有指標，我們的模型與人類判斷具有更優異的一致性。為將這些評判機制無縫整合至強化學習流程，我們提出創新的「基礎加獎勵」策略來平衡競爭目標：針對編輯任務的「一致性調控執行」（CME）與生成任務的「品質調控對齊」（QMA）。在此框架支持下，我們開發的FIRM-Qwen-Edit與FIRM-SD3.5模型實現顯著性能突破。全面實驗證實，FIRM能有效抑制幻覺現象，在保真度與指令遵循度上為現有通用模型設立新標竿。所有資料集、模型與程式碼均已公開於https://firm-reward.github.io。

单一模型，多重预算：扩散变换器的弹性潜空间接口
One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

Mar 12

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Dogyun Park, Anil Kag, Michael Vasilkovsky, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

扩散变换器（DiT）虽能实现高生成质量，但其计算量（FLOPs）与图像分辨率强耦合，限制了合理的延迟-质量权衡，且对输入空间令牌均匀分配计算资源，导致不重要区域的计算浪费。我们提出弹性潜变量接口变换器（ELIT），作为一种即插即用且兼容DiT的机制，将输入图像尺寸与计算量解耦。该方法通过插入潜变量接口——一个可学习的变长令牌序列，使标准变换器模块可在此序列上操作。轻量级的读写交叉注意力层在空间令牌与潜变量间传递信息，并优先处理重要输入区域。通过随机丢弃尾部潜变量的训练方式，ELIT学会生成按重要性排序的表征：前期潜变量捕获全局结构，后期潜变量则包含细节优化信息。在推理阶段，可动态调整潜变量数量以适应计算约束。ELIT设计极简，仅增加两个交叉注意力层，同时保持修正流目标函数和DiT架构不变。在多个数据集和架构（DiT、U-ViT、HDiT、MM-DiT）上的实验表明，ELIT能带来持续性能提升。在ImageNet-1K 512px任务中，ELIT将FID和FDD分数平均提升35.3%和39.6%。项目页面：https://snap-research.github.io/elit/

RubiCap：基于量规引导强化学习的密集图像描述生成
RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Mar 10

ByTzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu

密集图像描述技术对于视觉语言预训练和文生图模型中的跨模态对齐至关重要，但专家级标注的规模化成本极高。虽然通过强视觉语言模型（VLM）进行合成标注是可行替代方案，但监督式蒸馏往往导致输出多样性受限和泛化能力薄弱。强化学习（RL）虽能突破这些局限，但其成功案例目前集中于依赖确定性验证器的可验证领域——这在开放式描述任务中难以实现。我们提出RubiCap这一新型RL框架突破该瓶颈，通过LLM撰写的评估准则生成细粒度的样本级奖励信号。该框架首先组建多样化候选描述委员会，继而利用LLM评估准则生成器提取共识优势并诊断当前策略缺陷。这些洞察被转化为显式评估标准，使LLM评判官能分解整体质量评估，以结构化多维度评价替代粗糙的标量奖励。在广泛基准测试中，RubiCap在CapArena平台上取得最高胜率，超越监督蒸馏、传统RL方法、人类专家标注及GPT-4V增强输出。在CaptionQA任务中展现出卓越的词汇效率：我们的70亿参数模型与Qwen2.5-VL-32B-Instruct表现相当，而30亿参数模型更胜其70亿版本。值得注意的是，使用轻量级RubiCap-3B作为描述器训练出的VLM，其性能甚至优于基于商用模型描述训练的VLM。

GRADE：图像编辑领域知识驱动推理基准测试
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing

Mar 12

ByMingxin Liu, Ziqian Fan, Zhaokai Wang, Leyao Gu, Zirun Zhu, Yiguo He, Yuchen Yang, Changyao Tian, Xiangyu Zhao, Ning Liao, Shaofeng Zhang, Qibing Ren, Zhihang Zhong, Xuanhe Zhou, Junchi Yan, Xue Yang

当前统一多模态模型致力于实现联合理解、推理与生成，但现有图像编辑基准大多局限于自然图像和浅层常识推理，难以评估其在结构化、领域特定约束下的能力。为此，我们推出首个面向学科知识与推理的图像编辑基准GRADE，包含从自然科学到社会科学等10个学术领域的520个精心构建样本。为支持严谨评估，我们提出多维度评估协议，综合考察学科推理能力、视觉一致性与逻辑可读性。通过对20个先进开源与闭源模型的大规模实验，发现当前模型在隐含知识密集的编辑场景中存在显著局限，表现为巨大性能差距。除量化评分外，我们通过系统分析与消融实验揭示模型缺陷，明确学科编辑中的约束条件。GRADE为统一多模态模型的未来发展指明了关键方向，推动学科知识驱动的图像编辑与推理研究。基准数据与评估代码已公开释放。

CREATE：测试大语言模型的联想创造力
CREATE: Testing LLMs for Associative Creativity

Mar 10

ByManya Wadhwa, Tiasa Singha Roy, Harvey Lederman, Junyi Jessy Li, Greg Durrett

创造力的关键组成部分在于联想推理能力：即在概念间建立新颖且具意义联系的能力。我们推出CREATE基准测试，旨在评估模型的创造性联想推理能力。该测试要求模型在其参数化知识体系中生成连接概念的多条路径，这些路径需具备高特异性（概念连接的独特性与紧密性）和高多样性（与其他路径的差异度），且模型生成的优质多元路径越多，得分越高。此项任务与假设生成等真实创造力任务具有共同需求——包括极大的搜索空间，但能通过客观答案评分收集大规模基准数据。对前沿模型的评估表明，最强模型能获得比其他模型更高的创意效用值，但由于答案的多元性和搜索复杂性，基准测试难以达到饱和状态。此外，我们的结果表明，即使拥有高令牌预算，思维模型在此任务中并非总是更有效。近期创新的提示工程技术仅能带来有限提升。CREATE为开发新方法提供了沙盒环境，以增强模型的联想创造力。

EVATok：面向高效视觉自回归生成的自适应长度视频分词技术
EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

Mar 12

ByTianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu

自回归视频生成模型依赖视频分词器将像素压缩为离散的标记序列。这些标记序列的长度对于平衡重建质量与下游生成计算成本至关重要。传统视频分词器在不同视频的时间块上采用统一的标记分配方案，常将标记浪费在简单、静态或重复的片段上，而对动态或复杂片段分配不足。为解决这一效率问题，我们提出EVATok框架以构建高效视频自适应分词器。该框架通过估算各视频的最优标记分配来实现最佳质量-成本权衡，开发轻量级路由器快速预测这些最优分配，并训练能根据路由器预测结果进行编码的自适应分词器。实验表明，EVATok在视频重建和下游自回归生成的效率与整体质量上实现显著提升。结合我们集成视频语义编码器的先进训练方案，EVATok在UCF-101数据集上实现了卓越的重建效果和顶尖的类别到视频生成性能，与先前最优的LARP方法及我们自建的定长基线相比，平均标记使用量至少节省24.4%。

神經叢林：預訓練權重周圍密佈多樣化任務專家
Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Mar 12

ByYulu Gan, Phillip Isola

預訓練所產生的學習參數向量通常被視為後續迭代適應的起點。本研究提出一種新視角：將預訓練結果視為參數向量的概率分佈，其支撐集中已蘊含任務專家的解。我們證明在小型模型中，此類專家解僅佔該分佈體積的微小部分，需依賴梯度下降等結構化優化方法才能發現；而在經過充分預訓練的大型模型中，任務專家的密度會急劇增加，使得多樣化的任務改進型專家充斥於預訓練權重鄰域的相當大範圍內。基於此觀點，我們探索了一種完全並行的簡單後訓練方法：隨機採樣N個參數擾動，選取表現最佳的K個樣本，並通過多數表決進行預測集成。儘管方法簡潔，該策略在當代大規模模型中的表現可與PPO、GRPO、ES等標準後訓練方法相媲美。

OmniStream：在连续流中精通感知、重构与行动
OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams

Mar 12

ByYibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie

现代视觉智能体需要具备通用性、因果性和物理结构化的表征能力，才能在实时流式环境中运行。然而当前的视觉基础模型仍处于割裂状态，仅专长于图像语义感知、离线时序建模或空间几何等单一领域。本文提出OmniStream——一种统一的流式视觉主干网络，能够有效感知、重建并处理多样化视觉输入。通过引入因果时空注意力机制与三维旋转位置编码（3D-RoPE），我们的模型借助持久键值缓存实现了视频流的高效逐帧在线处理。我们采用协同多任务框架对OmniStream进行预训练，该框架耦合了静态与时序表征学习、流式几何重建以及视觉-语言对齐，共涵盖29个数据集。大量实验表明，即使在严格冻结主干网络的条件下，OmniStream仍在图像/视频探测、流式几何重建、复杂视频与空间推理以及机器人操控（训练未涉及场景）等任务中，持续取得与专业模型相媲美的性能。本研究不追求特定基准测试的绝对优势，而是证明训练单一通用视觉主干网络的可行性——该网络能在语义、空间和时序推理中实现泛化，这为交互式具身智能体迈向通用视觉理解迈出了更有意义的一步。

FP4量化大语言模型训练中均值偏差的诅咒与祝福（注：FP4指4位浮点数量化格式。该标题采用学术论文常见的矛盾修辞法，通过"诅咒"与"祝福"的对比凸显量化误差的双重影响，既保留原文的文学张力，又符合中文论文标题的简洁性要求。）
The Curse and Blessing of Mean Bias in FP4-Quantized LLM Training

Mar 11

ByHengjie Cao, Zhendong Huang, Mengyi Chen, Yifeng Yang, Fanqi Yu, Ruijun Huang, Fang Dong, Xin Zhang, Jixian Zhou, Anrui Chen, Mingzhi Dong, Yujiang Wang, Jinlong Hou, Qin Lv, Yuan Cheng, Tun Lu, Fan Yang, Li Shang

在自然语言上训练的大型语言模型表现出显著的各向异性：少数方向集中了不成比例的能量，而其余维度则形成宽广的语义尾部。在低比特训练机制中，这种几何结构会变得数值不稳定。由于分块量化尺度由极端元素幅值决定，主导方向会拉伸动态范围，将长尾语义变化压缩至狭窄的数值区间。我们发现这种不稳定性主要由一个连贯的秩为一的均值偏差驱动，该偏差构成了LLM表示中谱各向异性的主导成分。该均值成分在不同层级和训练阶段系统性地涌现，并构成了大多数极端激活幅值，使其成为低精度下动态范围膨胀的主要推手。关键在于，由于主导不稳定性具有秩为一的特性，可通过简单的源级均值扣除操作予以消除。这种以偏差为中心的调节方法能复现基于SVD的谱方法的大部分稳定性优势，同时仅需归约操作和标准量化内核。FP4（W4A4G4）训练的实证结果表明，均值移除能大幅缩小与BF16的损失差距并恢复下游性能，为稳定低比特LLM训练提供了硬件高效的路径。

EndoCoT：擴散模型中內生性思維鏈推理的規模化應用
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models

Mar 12

ByXuanlang Dai, Yujie Zhou, Long Xing, Jiazi Bu, Xilin Wei, Yuhong Liu, Beichen Zhang, Kai Chen, Yuhang Zang

近日，多模态大语言模型（MLLMs）被广泛集成至扩散框架中，主要作为文本编码器以解决空间推理等复杂任务。然而该范式存在两大局限：（i）MLLMs文本编码器的推理深度不足。单步编码无法激活思维链过程，而该过程对MLLMs为复杂任务提供精准指导至关重要；（ii）指导信号在解码过程中保持恒定。即使获得正确的MLLM编码，恒定的指导信号也会阻碍扩散变换器（DiT）将复杂指令逐步分解为可执行的去噪步骤。为此，我们提出内源思维链（EndoCoT）新框架：首先通过迭代思维指导模块细化潜在思维状态，激活MLLMs的推理潜能；其次采用终端思维锚定模块，通过将最终状态与真实答案对齐，确保推理轨迹始终受文本监督约束。借助这两个组件，MLLM文本编码器可提供精细推理的指导信号，使DiT能够逐步执行并最终以分步方式解决复杂任务。在多样化基准测试（如迷宫、旅行商问题、车辆路径问题、数独）中的大量评估显示，该框架平均准确率达92.1%，较最强基线提升8.3个百分点。

Mobile-GS：面向移动设备的实时高斯泼溅渲染技术
Mobile-GS: Real-time Gaussian Splatting for Mobile Devices

Mar 12

ByXiaobiao Du, Yida Wang, Kun Zhan, Xin Yu

3D高斯泼溅（3DGS）作为一种强大的表示方法，已在广泛应用中实现高质量渲染。然而，其高计算需求和大存储成本给移动设备部署带来了巨大挑战。本研究提出一种面向移动端的实时高斯泼溅方法Mobile-GS，可在边缘设备上实现高效推理。具体而言，我们首先发现阿尔法混合是主要计算瓶颈，因其依赖耗时的高斯深度排序过程。为此，我们提出深度感知的无序渲染方案，通过消除排序需求显著加速渲染。虽然无序渲染提升了速度，但可能因渲染顺序缺失在几何重叠区域产生透明伪影。针对该问题，我们提出神经视角依赖增强策略，基于观察方向、3D高斯几何和外观属性实现更精确的视角依赖效果建模。由此，Mobile-GS可同时实现高质量与实时渲染。此外，为促进在内存受限的移动平台部署，我们引入一阶球谐蒸馏、神经向量量化技术及基于贡献度的剪枝策略，借助神经网络减少高斯图元数量并压缩3D高斯表示。大量实验表明，Mobile-GS在保持高视觉质量的同时实现了实时渲染与紧凑模型尺寸，非常适合移动应用场景。

视频推理模型已准备好走出实验室了吗？
Are Video Reasoning Models Ready to Go Outside?

Mar 11

ByYangfan He, Changgyu Boo, Jaehong Yoon

在现实世界部署中，视觉语言模型常面临天气变化、遮挡和相机运动等干扰。此类条件下，模型的理解与推理能力会显著下降，暴露出洁净受控（即无干扰）评估环境与实际鲁棒性之间的差距。为突破此局限，我们提出ROVA训练框架，通过时空扰动下的鲁棒感知一致性奖励建模来提升模型稳健性。ROVA采用难度感知的在线训练策略，根据模型动态能力优先选择信息量丰富的样本。具体而言，该框架通过自反式评估持续重估样本难度，实现基于鲁棒感知一致性奖励的自适应训练。我们还推出PVRBench新基准测试，通过向具身视频数据集注入真实扰动，评估模型在现实干扰下的准确性与推理质量。我们在PVRBench、UrbanVideo和VisBench上评估ROVA与基线模型，发现开源与专有模型在真实扰动下的准确率与推理能力最大降幅分别达35%和28%。相比基线模型（QWen2.5/3-VL、InternVL2.5、Embodied-R），ROVA有效缓解性能衰退，相对准确率提升至少24%，推理能力提高超9%。这些增益可迁移至洁净标准基准测试，带来持续改进。

基于重构的理解：面向大模型预训练的逆向软件开发流程
Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining

Mar 11

ByZhiyuan Zeng, Yichi Zhang, Yong Shan, Kai Hua, Siyuan Fang, Zhaiyu Liu, Jiaheng Liu, Haozhe Wang, Yining Zheng, Ming Ding, Ke Shen, Ge Zhang, Wenhao Huang, Xipeng Qiu

儘管大型語言模型在代碼生成領域取得了顯著成就，但在處理複雜軟件工程所需的深層次、長週期推理任務時仍面臨挑戰。我們認為這種侷限性源於標準預訓練數據的本質：靜態軟件倉庫僅呈現了複雜智力過程的最終狀態，其間涉及的規劃、調試和迭代優化等中間環節已被抽象剝離。為彌合這一差距，我們提出"通過重構實現理解"的新範式。我們假設，對靜態倉庫背後潛在的行為軌跡（包括規劃、推理和調試步驟）進行逆向工程，相比單純使用原始代碼能提供更豐富的監督信號。為實現這一理念，我們開發了基於多智能體模擬的軌跡合成框架，該框架通過依賴圖和文件層級等源代碼倉庫的結構化特徵來確保重建過程的保真度。此外，為保證合成數據的邏輯嚴謹性，我們採用基於搜索的優化技術，通過迭代改進思維鏈推理來最大化真實代碼的生成概率。實驗結果表明，基於這些重建軌跡進行持續預訓練，能顯著提升Llama-3-8B模型在多項基準測試中的表現，包括長上下文理解、編碼能力及智能體行為水平。

基于自省机制的元强化学习在智能搜索中的应用
Meta-Reinforcement Learning with Self-Reflection for Agentic Search

Mar 11

ByTeng Xiao, Yige Yuan, Hamish Ivison, Huaisheng Zhu, Faeze Brahman, Nathan Lambert, Pradeep Dasigi, Noah A. Smith, Hannaneh Hajishirzi

本文提出MR-Search——一种基于情境元强化学习的智能搜索框架，该框架通过自我反思机制实现跨情景的策略优化。与传统在稀疏奖励的独立情景中优化策略的方法不同，MR-Search训练的策略能够关联历史搜索情景，并动态调整跨情景的搜索策略。该方法通过自我反思实现搜索策略的元学习，使智能体在测试阶段能够实现情境化探索能力的持续提升。具体而言，MR-Search通过在每个搜索情景后生成显式自我反思记录，并将其作为后续尝试的附加情境信息，实现跨情景的探索优化，从而在测试阶段促进更有效的探索行为。我们进一步提出多轮次强化学习算法，该算法在轮次层面估计密集相对优势值，实现对每个情景的细粒度功劳分配。多个基准测试的实验结果表明，MR-Search相较于基线强化学习方法具有显著优势，在八项基准测试中展现出强大的泛化能力，相对性能提升幅度达9.2%至19.3%。相关代码与数据已开源：https://github.com/tengxiao1/MR-Search。

透過神經元胞自動機訓練語言模型
Training Language Models via Neural Cellular Automata

Mar 9

ByDan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal

预训练对大型语言模型（LLMs）具有关键意义，因为模型在此期间习得大部分表征与能力。然而自然语言预训练存在诸多问题：高质量文本资源有限、内含人类偏见，且将知识与推理能力相互纠缠。这引发了一个根本性质疑：自然语言是否是实现智能的唯一路径？我们提出采用神经元胞自动机（NCA）生成合成非语言数据，用于LLMs的预预训练——即先合成语言后自然语言的训练范式。NCA数据展现出丰富的时空结构与类自然语言的统计特征，同时具备可控性强、大规模生成成本低的优势。实验表明，仅使用1.64亿个NCA标记进行预预训练，即可将下游语言建模性能提升最高达6%，收敛速度加快至1.6倍。令人惊讶的是，其效果甚至优于在Common Crawl自然语言语料上耗费更多算力进行的16亿标记预预训练。这些增益同样体现在GSM8K、HumanEval和BigBench-Lite等推理基准测试中。通过探究迁移机制，我们发现注意力层的可迁移性最强，且最优NCA复杂度因领域而异：代码领域受益于更简单的动力学规则，而数学与网络文本领域则偏好更复杂的规则。这一发现使得我们能针对目标领域系统化调整合成数据分布。更广泛而言，我们的研究为通过全合成预训练构建更高效模型开辟了新路径。

微缩版Aya模型：跨越规模与多语言深度的桥梁
Tiny Aya: Bridging Scale and Multilingual Depth

Mar 12

ByAlejandro R. Salamanca, Diana Abagyan, Daniel D'souza, Ammar Khairi, David Mora, Saurabh Dash, Viraat Aryabumi, Sara Rajaee, Mehrnaz Mofakhami, Ananya Sahu, Thomas Euyang, Brittawnya Prince, Madeline Smith, Hangyu Lin, Acyr Locatelli, Sara Hooker, Tom Kocmi, Aidan Gomez, Ivan Zhang, Phil Blunsom, Nick Frosst, Joelle Pineau, Beyza Ermis, Ahmet Üstün, Julia Kreutzer, Marzieh Fadaee

Tiny Aya重新定义了小型多语言模型的潜力。该模型基于70种语言进行训练，并通过区域感知后训练优化，仅以35亿参数就实现了顶尖的翻译质量、强大的多语言理解能力以及高质量的目标语言生成效果。本次发布包含预训练基础模型、全球平衡的指令微调版本，以及针对非洲、南亚、欧洲、亚太和西亚语言的三个区域专项模型。本报告详述了Tiny Aya的训练策略、数据构成与综合评估框架，为多语言AI发展提供了新的扩展路径——这条路径以效率为核心，追求跨语言平衡性能与实际部署可行性。

高性能强化学习环境的自动生成
Automatic Generation of High-Performance RL Environments

Mar 12

BySeth Karten, Rahul Dev Appapogu, Chi Jin

将复杂的强化学习环境转化为高性能实现传统上需要数月的专业工程开发。我们提出了一种可复用的方法——包含通用提示模板、分层验证和迭代式智能体辅助修复——能够以低于10美元的计算成本生成语义等效的高性能环境。我们展示了跨五个环境的三种差异化工作流：直接翻译（无现有性能实现）：EmuRust（通过Rust并行化实现Game Boy模拟器的PPO速度提升1.5倍）和首个GPU并行的Pokemon对战模拟器PokeJAX（随机操作5亿步/秒，PPO策略1520万步/秒，较TypeScript参考实现提升22,320倍）；基于现有性能实现的验证翻译：在匹配GPU批处理量时达到MJX吞吐量持平（1.04倍）且超越Brax 5倍（HalfCheetah JAX环境），PPO训练速度提升42倍（Puffer Pong环境）；新环境创建：从网络提取的规范合成出首个可部署的JAX版Pokemon集换式卡牌引擎TCGJAX（随机操作71.7万步/秒，PPO策略15.3万步/秒，较Python参考实现提升6.6倍）。当模型参数达2亿时，环境开销降至训练时间的4%以下。分层验证（属性测试、交互测试和推演测试）确认所有五个环境均保持语义等效；跨后端策略迁移证实所有环境实现零模拟差异。TCGJAX作为智能体预训练数据污染的对照样本，其私有参考实现未出现在公共代码库中。本文提供了足够详尽的实现细节——包括代表性提示模板、验证方法和完整结果——使得编码智能体可直接根据论文复现所有翻译实现。

FireRedASR2S：一款业界领先的工业级一体化自动语音识别系统
FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

Mar 11

ByKaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao Hu

我们推出FireRedASR2S——一款工业级一体化自动语音识别（ASR）系统。该系统集成了四大模块：语音识别（ASR）、语音活动检测（VAD）、口语语言识别（LID）及标点预测（Punc），所有模块在评测基准中均达到顶尖性能。FireRedASR2语音识别模块提供两种版本：FireRedASR2-LLM（参数量80亿+）与FireRedASR2-AED（参数量10亿+），支持普通话、汉语方言与口音、英语及语码转换的语音与歌唱转写。相较于前代FireRedASR，新版在识别准确率与方言口音覆盖范围上均有提升。FireRedASR2-LLM在4个普通话公开基准上平均字错误率（CER）为2.89%，在19个汉语方言与口音基准上达11.55%，性能超越豆包-ASR、Qwen3-ASR、Fun-ASR等竞品。FireRedVAD语音活动检测模块基于深度前馈序列记忆网络（DFSMN），参数量仅60万，支持流式/非流式VAD及多标签VAD（mVAD）。在FLEURS-VAD-102基准中，其帧级F1值达97.57%，AUC-ROC达99.60%，优于Silero-VAD、TEN-VAD、FunASR-VAD及WebRTC-VAD。FireRedLID语言识别模块采用编码器-解码器架构，支持100余种语言及20多种汉语方言与口音。在FLEURS（82种语言）测试中，语句级准确率达97.18%，超越Whisper与SpeechBrain。FireRedPunc标点预测模块采用BERT风格架构，支持中英文标点预测。在多领域基准测试中，其平均F1值达78.90%，显著优于FunASR-Punc（62.77%）。为促进语音处理研究，我们已在https://github.com/FireRedTeam/FireRedASR2S 开源模型权重与代码。

扩散模型的几何自编码器
Geometric Autoencoder for Diffusion Models

Mar 11

ByHangyu Liu, Jianyong Wang, Yutao Sun

潛在擴散模型已在高分辨率視覺生成領域樹立了新的技術標杆。儘管融合視覺基礎模型的先驗知識能提升生成效率，現有潛空間設計仍多基於經驗性方法。這些方法往往難以兼顧語義可區分性、重建保真度與潛空間緊湊性。本文提出幾何自編碼器（GAE），這一理論驅動的框架系統性解決上述挑戰。通過分析多種對齊範式，GAE從視覺基礎模型中構建出經優化的低維語義監督目標，為自編碼器提供指導。此外，我們採用潛在歸一化技術替代標準變分自編碼器中限制性強的KL散度，構建了專為擴散學習優化的穩定潛流形。為確保高強度噪聲下的魯棒重建，GAE引入了動態噪聲採樣機制。實驗表明，GAE在ImageNet-1K 256×256基準測試中取得顯著性能：無需分類器自由引導時，僅80輪訓練即達1.82的gFID指標，800輪後進一步降至1.31，顯著超越現有最先進方法。除生成質量外，GAE在壓縮率、語義深度與重建穩定性間建立了更優平衡。這些成果驗證了我們的設計思路，為潛在擴散建模提供了新範式。代碼與模型已開源於https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models。

口音向量：无需口音数据实现多语言TTS的可控口音操控
Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Mar 8

ByThanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan

口音作为社会结构的重要组成部分，既折射多元文化特征，也塑造着个体的身份表达方式。尽管全球多数英语使用者为非母语人士，但由于口音数据匮乏，当前文本转语音系统主要基于美式口音建模。我们提出"口音向量"这一可控表征方法，可在无需口音训练数据的前提下实现多语言TTS系统的口音操控。该技术通过在不同语言的母语语音上微调TTS模型，并计算捕捉口音特征的任务向量（以英语为例），实现跨语言口音迁移。通过向量缩放与插值运算，我们不仅能精准控制口音强度，还能生成混合口音语音。该方法具备跨语言泛化能力，可应用于多语种口音控制。客观指标与人工评估均证实，口音向量能实现细粒度、可组合的口音调控。

DIVE：面向可泛化工具使用的代理任务合成多样性扩展
DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

Mar 10

ByAili Chen, Chi Zhang, Junteng Liu, Jiangjie Chen, Chengyu Du, Yunji Li, Ming Zhong, Qin Wang, Zhengmao Zhu, Jiayuan Song, Ke Ji, Junxian He, Pengyu Zhao, Yanghua Xiao

近期研究雖已能合成適用於後訓練工具型大語言模型的代理任務，但在任務與工具集發生變化時的魯棒泛化能力仍是開放性難題。我們將此脆弱性歸因於合成任務多樣性不足。提升多樣性面臨雙重挑戰：訓練要求任務必須具備可執行性與可驗證性，而泛化能力則需要覆蓋多樣化的工具類型、工具集組合及異構工具使用模式。為此，我們提出證據驅動的DIVE方法，通過逆轉合成流程——先執行多樣化的真實工具，再嚴格根據執行軌跡反向推導任務，從而實現建構層面的實證基礎。DIVE沿兩個可控維度擴展結構多樣性：工具池覆蓋率與單任務工具集多樣性，並通過"證據收集-任務推導"循環在五大領域的373個工具中誘導出豐富的多步驟工具使用模式。基於DIVE數據（4.8萬條SFT+3200條RL）訓練的Qwen3-8B模型，在9個OOD基準測試中平均提升22分，較最強8B基線模型領先68分。值得注意的是，可控擴展分析表明：對於OOD泛化能力，多樣性擴展始終優於數據量擴展，即使在數據量減少四倍的情況下依然如此。

基于加权h变换采样的粗引导视觉生成
Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Mar 12

ByYanghao Wang, Ziqi Jiang, Zhen Wang, Long Chen

粗粒度引导的视觉生成技术通过从退化或低保真度的粗略参考中合成精细视觉样本，在各种现实应用中具有关键意义。尽管基于训练的方法效果显著，但其固有局限性在于高昂的训练成本以及配对数据收集导致的泛化能力受限。为此，近期无训练方法提出利用预训练扩散模型，在采样过程中引入引导机制。然而，这些方法要么需要已知前向（精细到粗略）变换算子（如双三次下采样），要么难以在引导效果与合成质量之间取得平衡。为应对这些挑战，我们提出一种基于h变换的新型引导方法——该数学工具能够将随机过程（如采样过程）约束于理想条件下。具体而言，我们通过在原微分方程中添加漂移函数来修正每个采样步长的转移概率，从而近似地将生成过程导向理想精细样本。针对不可避免的近似误差，我们引入噪声水平感知调度机制，随着误差增大逐步降低该项的权重，确保引导依从性与高质量合成的统一。在多样化图像与视频生成任务上的大量实验证明了本方法的有效性和泛化能力。

不可验证情境下LLM后训练中的推理能力评估研究
Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Mar 12

ByYixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen

推理型大语言模型即评判器（LLMs-as-Judges）能够通过推理时扩展技术获益，为将推理模型的成功经验推广至不可验证领域（即无法直接检验输出正确性/质量的场景）提供了可行路径。然而，尽管推理型评判器在静态评估基准中表现出更优性能，但其在实际策略训练中的有效性尚未得到系统检验。为此，我们通过严格实验探究非推理型与推理型评判器在基于强化学习的大模型对齐中的实际影响。在受控合成环境中，我们利用"黄金标准"评判器（gpt-oss-120b）提供的偏好标注来训练小型评判器，结果揭示了关键差异：非推理型评判器易导致奖励破解，而推理型评判器训练出的策略在黄金标准评判器评估中表现强劲。有趣的是，我们发现推理型评判器训练出的策略之所以表现优异，是因为其学会了生成具有高度效力的对抗性输出——这些输出不仅能欺骗其他LLM评判器，还能在Arena-Hard等流行基准测试中获得高分。结合进一步分析，本研究既揭示了重要发现，也指明了（推理型）LLM评判器在不可验证领域后训练应用中仍需改进的空间。

PACED：立足学生能力前沿的知識蒸餾法
PACED: Distillation at the Frontier of Student Competence

Mar 11

ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang

標準的LLM蒸餾技術在兩個方面存在計算浪費：學生模型已掌握的問題（梯度趨近於零）與遠超其能力的問題（產生混亂梯度並削弱既有能力）。我們證明這種浪費不僅直觀存在，更是結構性必然：蒸餾過程中的梯度信噪比在通過率的兩個極端值處可證明會消失。這一理論觀察催生了Paced框架，其通過從蒸餾梯度邊界消失結構推導出的原則性通過率權重w(p)=p^α(1-p)^β，將蒸餾集中於近側發展區——學生模型能力的前沿地帶。關鍵成果：（1）理論層面：我們證明Beta核函數w(p)=p^α(1-p)^β是蒸餾信噪比結構產生的主導權重族，且具有極小極大魯棒性——在有限乘性誤差設定下，最壞情況效率損失僅為O(δ^2)；（2）蒸餾實踐：在採用前向KL散度的大模型向小模型蒸餾中，Paced相較基礎模型實現顯著增益，同時將基準遺忘率維持在低水平；（3）自蒸餾應用：在基於反向KL散度的指令微調模型中，增益效果同樣超越基線；（4）雙階段協同：前向KL接續反向KL的訓練方案在我們設定中取得最優結果，於標準推理基準上實現大幅提升——這支持了蒸餾過程中"模式覆蓋先行，鞏固隨後"的解釋機制。所有配置僅需學生模型推演來估計通過率，無需改變架構，且兼容任意KL散度方向。

面向增强型多模态大语言模型评判器的多任务强化学习
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Mar 12

ByJunjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang

多模态大语言模型（MLLM）因其在各类视觉任务中与人类评判标准高度契合，已被广泛采纳为"MLLM即评判官"解决方案。然而现有大多数评判模型仅针对单任务场景优化，难以泛化至多样化语境，而这一特性恰恰是可靠评估的关键需求。为突破此局限，我们提出面向"MLLM即评判官"的多任务强化学习框架（MT-RL-Judge），该框架通过强化学习的泛化能力，实现评判模型在多任务上的联合优化。与多个强基线模型的对比实验表明，MT-RL-Judge在评判一致性及与人类偏好相关性方面均优于现有强基线。此外，我们的方法在分布外任务上展现出稳健的泛化能力，进一步验证了其有效性。

SHAP-AV博士：基於夏普利值歸因解碼音視覺語音識別中的模態貢獻度
Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Mar 12

ByUmberto Cappellazzo, Stavros Petridis, Maja Pantic

视听语音识别（AVSR）通过融合声学与视觉信息实现噪声环境下的鲁棒识别。然而，模型如何平衡这两种模态仍不明确。我们提出Dr. SHAP-AV框架，利用沙普利值分析AVSR中的模态贡献度。通过对两个基准数据集、六种模型在不同信噪比条件下的实验，我们引入三种分析：全局SHAP（评估整体模态平衡）、生成式SHAP（解析解码过程中的贡献动态）和时间对齐SHAP（探究输入输出对应关系）。研究发现：模型在噪声下会转向视觉依赖，但即使音频严重退化仍保持较高贡献度；模态平衡在生成过程中动态演化；时间对齐性在噪声下依然成立；信噪比是驱动模态权重分配的主导因素。这些发现揭示了模型存在持续性音频偏好，启示未来需设计自适应模态加权机制，并将基于沙普利值的归因分析作为标准化的AVSR诊断工具。

SoundWeaver：面向文本到音频扩散服务的语义热启动技术
SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

Mar 9

ByAyush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai

文本转音频扩散模型能生成高保真音频，但需要数十次函数评估（NFE），导致多秒级延迟和有限吞吐量。我们提出SoundWeaver——首个无需重新训练、模型无关的服务系统，通过从语义相似的缓存音频热启动来加速文本转音频扩散过程。该系统包含三个核心组件：通过语义与时长感知门控机制检索并时序对齐缓存候选音频的参考选择器；动态决定可跳过NFE百分比的跳跃门控器；通过质量感知的淘汰与优化机制维护缓存效用的轻量级缓存管理器。在真实音频数据集测试中，SoundWeaver仅凭约1千条缓存条目即可实现1.8-3.0倍的延迟降低，同时保持或提升感知质量。

TeamHOI：面向任意团队规模协作性人物-物体交互的统一策略学习
TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Mar 9

ByStefan Lionar, Gim Hee Lee

基于物理的人形机器人控制已在实现逼真高效的单智能体行为方面取得显著进展，但将这些能力扩展到协作式人物交互（HOI）领域仍具挑战性。我们提出TeamHOI框架，通过单一去中心化策略处理任意数量协作智能体间的协同HOI任务。每个智能体基于局部观测进行操作，同时通过基于Transformer策略网络中的队友令牌关注其他成员，实现可变团队规模的可扩展协调。为在缺乏协作HOI数据的情况下保证运动真实性，我们进一步提出掩码对抗运动先验（AMP）策略，该策略在训练时使用单人类参考运动并掩码物体交互的身体部位。掩码区域通过任务奖励引导生成多样且物理合理的协作行为。我们在涉及2至8个人形智能体及不同几何形状物体的协作搬运任务上评估TeamHOI。最后，为促进稳定搬运，我们设计了与团队规模和形状无关的队形奖励机制。TeamHOI以单一策略实现了高成功率，并在多种配置下展现出高度一致的协作能力。

注意力汇聚机制是Softmax Transformer中可证明的必要组件：来自触发条件任务的证据
Attention Sinks Are Provably Necessary in Softmax Transformers: Evidence from Trigger-Conditional Tasks

Mar 12

ByYuval Ran-Milo

Transformer模型常出现注意力汇现象：概率质量会集中在某个固定且与内容无关的位置上。我们通过数学证明，在softmax自注意力模型中计算简单的触发条件行为必然会产生注意力汇。该结果将一种常见直觉形式化：在概率单纯形上的归一化操作会迫使注意力坍缩到一个稳定锚点，以实现默认状态（例如当模型需要忽略输入时）。我们通过具体任务实例化这一现象：当出现指定触发标记时，模型必须返回所有前继标记表征的平均值，否则输出零值——这一任务模拟了实际注意力头的工作机制（Barbero等人，2025；Guo等人，2024）。同时我们证明，未经归一化的ReLU注意力可在不产生任何注意力汇的情况下完成相同任务，这证实了归一化约束是产生注意力汇的根本原因。实验验证了我们的理论预测，并证明该现象超越理论分析场景：softmax模型会产生显著注意力汇，而ReLU注意力在单头与多头变体中均能消除此现象。

EmbTracker：面向联邦语言模型的可溯源黑盒水印技术
EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Mar 12

ByHaodong Zhao, Jinming Hu, Yijie Bai, Tian Dong, Wei Du, Zhuosheng Zhang, Yanjiao Chen, Haojin Zhu, Gongshen Liu

联邦语言模型（FedLM）实现了无需共享原始数据的协同学习，但其引入了关键安全漏洞——任何不可信客户端均可能泄露接收到的功能模型实例。现有FedLM水印方案通常需白盒访问和客户端协同，仅能提供群组级所有权证明而缺乏个体追溯能力。本文提出EmbTracker，一种专为FedLM设计的服务端可追溯黑盒水印框架。该框架通过植入可经简单API查询检测的后门水印实现黑盒验证，并通过向分发给各客户端的模型注入独特身份水印实现客户端级追溯，从而准确定位泄露模型的特定责任方，即使面对非合作参与者也能确保鲁棒性。在多种语言模型和视觉语言模型上的大规模实验表明，EmbTracker能实现接近100%的验证率，对微调、剪枝、量化等去除攻击具有高抵抗力，且对主任务性能影响可忽略（通常控制在1-2%以内）。

神经场热层析成像：面向无损评估的可微分物理框架
Neural Field Thermal Tomography: A Differentiable Physics Framework for Non-Destructive Evaluation

Mar 11

ByTao Zhong, Yixun Hu, Dongzhe Zheng, Aditya Sood, Christine Allen-Blanchette

我们提出神经场热层析成像（NeFTY），这是一种基于可微分物理的框架，能够通过瞬态表面温度测量实现材料特性的定量三维重建。传统热成像技术依赖忽略横向扩散的逐像素一维近似方法，而软约束物理信息神经网络（PINN）在瞬态扩散场景中常因梯度刚性而失效；与之不同，NeFTY将三维扩散率场参数化为连续神经场，并通过严格数值求解器进行优化。通过利用可微分物理求解器，我们的方法将热力学定律作为硬约束强制执行，同时保持高分辨率三维层析成像所需的内存效率。这种“先离散后优化”的范式有效缓解了逆热传导中固有的频谱偏差和不适定性，实现了任意尺度下亚表面缺陷的精准重构。在合成数据上的实验验证表明，NeFTY在亚表面缺陷定位精度上显著优于基线方法。更多细节请访问：https://cab-lab-princeton.github.io/nefty/

WaDi：面向一步式圖像生成的權重方向感知蒸餾法
WaDi: Weight Direction-aware Distillation for One-step Image Synthesis

Mar 9

ByLei Wang, Yang Cheng, Senmao Li, Ge Wu, Yaxing Wang, Jian Yang

儘管穩定擴散（SD）等擴散模型在圖像生成方面表現卓越，其緩慢的推理速度卻限制了實際部署。近期研究通過將多步擴散提煉為單步生成器來加速推理。為深入理解提煉機制，我們分析了單步學生模型與其多步教師模型對應的U-Net/DiT權重變化。分析發現，權重方向的變化幅度顯著超過權重範數的變化，表明方向變化是提煉過程中的關鍵因素。基於此發現，我們提出低秩方向旋轉適配器（LoRaD），這是一種專為單步擴散提煉設計的參數高效適配器。LoRaD通過可學習的低秩旋轉矩陣來建模這些結構化的方向變化。我們進一步將LoRaD整合至變分分數提煉（VSD）中，形成權重方向感知提煉（WaDi）——一種新型單步提煉框架。WaDi在COCO 2014和COCO 2017數據集上取得了最優的FID分數，且僅需約U-Net/DiT 10%的可訓練參數。此外，經提煉的單步模型展現出強大的通用性與擴展性，能良好適應可控生成、關係反演及高解析度合成等多種下游任務。

SurvHTE-Bench：生存分析中异质性处理效应评估的基准框架
SurvHTE-Bench: A Benchmark for Heterogeneous Treatment Effect Estimation in Survival Analysis

Mar 5

ByShahriar Noroozizadeh, Xiaobin Shen, Jeremy C. Weiss, George H. Chen

在精準醫療與個體化政策制定等高風險應用中，基於右設限生存數據估計異質性處理效應具有關鍵意義。然而，由於數據設限、反事實結果的不可觀測性以及複雜的識別假設，生存分析場景為HTE估計帶來了獨特挑戰。儘管從因果生存森林到生存元學習器及結果插補方法等技術近期取得進展，評估實踐仍存在碎片化與不一致問題。我們提出SurvHTE-Bench——首個針對設限結果HTE估計的綜合基準平台，其包含三大模塊：（一）具有已知真實效應的模塊化合成數據集，系統性調整因果假設與生存動力學；（二）將真實世界協變量與模擬處理及結果相結合的半合成數據集；（三）源自雙胞胎研究（含已知真實效應）及HIV臨床試驗的真實世界數據集。通過合成、半合成與真實場景的綜合測試，我們首次在多樣化條件及現實假設違反情境下對生存HTE方法進行嚴謹比較。SurvHTE-Bench為因果生存方法的公平、可復現與可擴展評估奠定了基礎。本基準平台的數據與代碼公開於：https://github.com/Shahriarnz14/SurvHTE-Bench。

NerVE：大型语言模型前馈网络中的非线性特征谱动力学
NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks

Mar 6

ByNandan Kumar Jha, Brandon Reagen

我们提出NerVE框架——一种统一的特征谱分析体系，用于理解前馈网络（FFN）如何在大语言模型（LLM）的高维潜空间内组织与调控信息流。尽管FFN占据模型参数的主要部分，但其高维动态特性仍未被充分认知。NerVE通过四种互补指标实现轻量级、内存高效的特征谱动态追踪：谱熵（离散度）、参与率（有效维度）、特征值早期富集（顶部集中度）和詹森-香农散度（分布偏移）。核心发现表明：FFN非线性操作会跨特征模重注方差，从根本上调控潜空间维度利用效率；而优化器的几何特性会显著调节这种方差重注的强度。我们在不同模型规模、多样化架构与优化器配置下验证NerVE框架，发现每种配置都独特塑造FFN动态：归一化方案控制方差流动，FFN权重几何约束潜空间，位置编码与激活函数调控信息流，优化器选择沿深度维度重分布有效容量。在所有场景中，NerVE均能稳定提取与模型泛化能力相关的特征谱信号，这些信号对设计决策呈现可预测的响应规律。该框架可泛化至Transformer之外的MLP-Mixer架构，为超越试错法的架构设计与优化器选择提供可操作的洞见。

简单配方显奇效：视觉-语言-行动模型通过强化学习实现自然持续学习
Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning

Mar 12

ByJiaheng Hu, Jay Shim, Chen Tang, Yoonchang Sung, Bo Liu, Peter Stone, Roberto Martin-Martin

面向视觉-语言-动作模型的持续强化学习，是实现能在开放动态环境中自我优化的具身智能体的重要方向。传统持续学习理论认为，简单的顺序微调会导致灾难性遗忘，因此需要复杂的持续强化学习策略。本研究回归本源，通过在三类模型和五个具挑战性的终身强化学习基准测试中进行系统性实验，发现与既定认知相反：采用低秩自适应技术的简单顺序微调表现出惊人优势——具备高可塑性、几乎无遗忘现象，并保持强大的零样本泛化能力，其表现常优于复杂的持续强化学习方法。深入分析表明，这种鲁棒性源于大规模预训练模型、参数高效自适应策略和同策略强化学习的协同效应。这些要素共同重塑了稳定性与可塑性之间的平衡，使持续适应既稳定又可扩展。我们的研究确立了顺序微调作为视觉-语言-动作模型持续强化学习的有效方法，为大数据模型时代的终身学习提供了新见解。代码已发布于github.com/UT-Austin-RobIn/continual-vla-rl。

混合式训练策略：DINO变身多才多艺的视觉编码器（注：此处采用意译手法，"Omnivorous Vision Encoder"译为"多才多艺的视觉编码器"，既保留了原意中"全食性/杂食性"的隐喻，又通过"多才多艺"更符合中文技术文献的表述习惯，同时"混合式训练策略"比直译"混合饮食"更能准确传达论文中训练方法的本质。）
A Mixed Diet Makes DINO An Omnivorous Vision Encoder

Feb 27

ByRishabh Kabra, Maks Ovsjanikov, Drew A. Hudson, Ye Xia, Skanda Koppula, Andre Araujo, Joao Carreira, Niloy J. Mitra

诸如DINOv2等预训练视觉编码器在单模态任务中展现出卓越性能，但我们发现其特征表征在不同模态间存在严重失准。例如，同一场景的RGB图像与其对应深度图的特征嵌入，其余弦相似度几乎与两张随机无关图像无异。为解决此问题，我们提出全模态视觉编码器——一种学习模态无关特征空间的新型框架。该编码器采用双重目标进行训练：首先最大化同一场景不同模态间的特征对齐度；其次通过蒸馏目标将学习到的表征锚定于完全冻结的教师模型（如DINOv2）的输出。最终的学生编码器可对任意输入模态（RGB、深度、分割图等）生成统一且强大的场景嵌入，从而成为"全模态"编码器。该方法在保持原始基础模型判别性语义的同时，实现了鲁棒的跨模态理解能力。

HyPER-GAN：基于混合分塊的圖像轉換技術實現實時照片真實感增強
HyPER-GAN: Hybrid Patch-Based Image-to-Image Translation for Real-Time Photorealism Enhancement

Mar 11

ByStefanos Pasios, Nikos Nikolaidis

生成模型被廣泛應用於提升合成數據的攝影真實感，以訓練計算機視覺算法。然而，這類模型常會引入視覺偽影，不僅降低算法精度，還需耗費大量計算資源，限制了其在實時訓練或評估場景中的應用。本文提出混合補丁增強真實感生成對抗網絡（HyPER-GAN），這是一種基於U-Net架構生成器的輕量級圖像到圖像轉換方法，專為實時推理設計。該模型通過配對的合成圖像與真實感增強圖像進行訓練，並輔以混合訓練策略：引入真實數據的匹配圖像塊來提升視覺真實感與語義一致性。實驗結果表明，HyPER-GAN在推理延遲、視覺真實感和語義魯棒性方面均優於當前最先進的配對圖像轉換方法。此外，研究證實相比僅使用配對合成圖像與真實感增強圖像的訓練方式，所提出的混合訓練策略確實能提升視覺質量與語義一致性。代碼與預訓練模型已公開於：https://github.com/stefanos50/HyPER-GAN

印度尼西亚苏拉威西莫罗瓦利工业园镍加工扩张对沿海水体透明度下降的因果归因
Causal Attribution of Coastal Water Clarity Degradation to Nickel Processing Expansion at the Indonesia Morowali Industrial Park, Sulawesi

Mar 7

BySandy Hardian Susanto Herho, Alfita Puspa Handayani, Iwan Pramesti Anwar, Faruq Khadami, Karina Aprilia Sujatmiko, Doandy Yonathan Wibisono, Rusmawan Suwarman, Dasapta Erwin Irawan

印度尼西亚的镍矿出口禁令推动了中苏拉威西海岸的印尼莫罗瓦利工业园（IMIP）冶炼和湿法冶金加工能力的快速扩张，该园区现已成为全球最大的综合性镍加工基地。然而，这种工业化进程是否对邻近海洋环境造成破坏尚缺乏量化评估。本研究基于多年代际、多传感器卫星海洋水色数据，对490纳米波段漫衰减系数K_d(490)应用贝叶斯结构时间序列（BSTS）因果推断方法，以检验IMIP扩张与近岸浊度变化之间的因果关系。通过共识结构断点识别、基于班达海反事实对照的显著后验因果效应估计，以及无分布安慰剂排序检验，共同证实了从初期镍铁生产转向电池级镍高压酸浸设施超速扩张后，沿海水体透明度出现恶化。卫星遥感土地覆盖分析独立佐证了这一时间节点，显示IMIP区域内建成区大幅扩张与森林覆盖损失同步发生。由此引发的真光层变浅现象出现于支撑高海洋生物多样性的贫营养水域，即使中等程度的光学退化也可能损害珊瑚光合作用并压缩礁石栖息地的垂直分布空间。这些发现量化了印尼矿产下游化政策讨论中长期缺失的海洋环境成本，并展示了一种可迁移的、基于卫星数据的准实验框架，适用于数据稀缺的热带沿海工业区因果影响评估。

4DEquine：从单目视频中解耦运动与外观实现四维马匹重建
4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video

Mar 10

ByJin Lyu, Liang An, Pujin Cheng, Yebin Liu, Xiaoying Tang

基于单目视频的马科动物（如马匹）四维重建对动物福祉研究具有重要意义。当前主流的四维动物重建方法需对整个视频序列进行运动与外观的联合优化，该方法耗时较长且对不完整观测敏感。本研究提出名为4DEquine的创新框架，通过将四维重建解耦为动态运动重建和静态外观重建两个子问题。在运动重建方面，我们引入具有后优化阶段的时空Transformer模型，从视频中回归出平滑且像素对齐的姿态与体型序列；在外观重建方面，设计了一种前馈式网络，仅需单张图像即可重建高保真、可驱动的三维高斯化身。为辅助训练，我们构建了大规模合成运动数据集VarenPoser（包含高质量表面运动与多视角相机轨迹）以及合成外观数据集VarenTex（通过多视角扩散模型生成逼真多视图图像）。尽管仅使用合成数据训练，4DEquine在真实世界APT36K和AiM数据集上仍达到最先进性能，验证了该方法在几何与外观重建方面的优越性。系统的消融实验证明了运动与外观重建网络的有效性。项目页面：https://luoxue-star.github.io/4DEquine_Project_Page/。