HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

18 papers found

VESPO：基於變分序列層級軟策略優化的穩定離線策略大型語言模型訓練
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

訓練穩定性始終是大語言模型強化學習領域的核心挑戰。策略陳舊、異步訓練以及訓練與推理引擎之間的失配，都會導致行為策略偏離當前策略，從而引發訓練崩潰風險。重要性抽樣雖能為這種分佈偏移提供理論校正，但存在高方差缺陷；現有的令牌級截斷和序列級歸一化等補救措施缺乏統一理論基礎。我們提出變分序列級軟策略優化方法VESPO。通過將方差縮減技術融入提案分佈的變分框架，VESPO推導出可直接作用於序列級重要性權重的閉式重塑核函數，無需進行長度歸一化處理。在數學推理基準測試中，VESPO能在高達64倍陳舊率和全異步執行環境下保持訓練穩定性，並在稠密模型與專家混合模型中均實現性能持續提升。程式碼已開源於https://github.com/FloyedShen/VESPO。

您的推理模型是否隱含地知道何時停止思考？
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

近期大型推理模型（LRMs）的技術進展，透過長鏈思維（CoTs）大幅提升了處理複雜推理任務的能力。然而，這種方法往往會產生大量冗餘，不僅影響計算效率，更在即時應用中造成顯著延遲。最新研究表明，過長的推理鏈與正確性經常缺乏關聯，甚至可能損及準確度。在對此現象的深入分析中，我們意外發現並通過實證驗證：LRMs實際上隱含知悉何時該停止思考的能力，但此能力被現行取樣模式所掩蓋。基於此洞見，我們提出SAGE（自我感知引導高效推理）這一創新取樣範式，釋放模型的潛在高效推理能力。更進一步，將SAGE作為混合取樣策略整合至基於群體的強化學習框架（SAGE-RL）後，SAGE-RL能有效將SAGE發現的高效推理模式融入標準pass@1推論流程，在多項高難度數學基準測試中顯著提升LRMs的推理準確度與效率。

生成現實：結合手部與相機控制的互動式影片生成技術實現以人為本的世界模擬
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

延伸實境（XR）需要能響應使用者真實世界動作追蹤的生成模型，然而現有的影片世界模型僅能接受文字或鍵盤輸入等粗略控制訊號，限制了其在具身互動中的實用性。我們提出一種以人為中心的影片世界模型，可同時接收頭部追蹤姿勢與關節級手部姿勢作為條件輸入。為此，我們評估現有的擴散轉換器條件設定策略，並提出有效的三維頭手控制機制，實現精細的手部與物件互動。基於此策略，我們訓練雙向影片擴散模型作為教師模型，並將其蒸餾成可生成以自我為中心虛擬環境的因果互動系統。透過人體受試者評估這套生成現實系統，結果顯示相較於相關基準模型，本系統不僅提升任務執行效能，更顯著提高使用者對執行動作的感知控制程度。

以LoRA權重基跨越視覺類比空間
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

視覺類比學習透過示範而非文字描述實現圖像操控，使使用者能夠指定難以用言語闡述的複雜變換。給定三元組 {a, a', b}，目標是生成 b' 以實現 a : a' :: b : b' 的類比關係。現有方法採用單一低秩自適應（LoRA）模組將文字生成圖像模型適配至此任務，但存在根本性限制：試圖透過固定自適應模組捕捉多樣化的視覺變換空間，會制約其泛化能力。受近期研究啟發（該研究顯示受限領域中的LoRA可構成具語義意義且可插值的空間），我們提出LoRWeB新方法，透過動態組合已學習的變換基元（非正式而言即於「LoRA空間中選擇點」），在推理階段針對每個類比任務專屬化模型。我們引入兩個關鍵組件：(1) 可學習的LoRA模組基座，用於涵蓋不同視覺變換的空間；(2) 輕量級編碼器，能根據輸入類比對動態選擇並加權這些基座LoRA。全面評估表明，我們的方法達到了最先進性能，並顯著提升對未見過視覺變換的泛化能力。研究結果顯示，LoRA基座分解是實現靈活視覺操控的可行方向。程式碼與資料詳見：https://research.nvidia.com/labs/par/lorweb

解碼作為概率單純形上的優化：從Top-K到Top-P（核採樣）再到Best-of-K採樣器
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

解碼技術介於語言模型與其所有應用之間，卻仍被視為啟發式的參數調節手段。我們主張解碼應被理解為具理論基礎的優化層：在每個詞元生成時，我們在概率單形上解決正則化問題，權衡模型分數與結構性偏好及約束的平衡。這一統一框架將貪婪解碼、Softmax採樣、Top-K、Top-P及Sparsemax式稀疏性均視為特例，並通過最優性條件揭示其共同結構。更重要的是，該框架能擺脫經驗主義束縛，輕鬆設計新型解碼器。我們據此設計出Best-of-K（BoK）——一種針對多樣本流程（自洽性驗證、重排序、驗證器選擇）的KL錨定覆蓋目標。BoK以固定K樣本預算內覆蓋優質候選的概率為目標，提升實證表現。實驗表明該方法能顯著提升準確率，例如在高採樣溫度下，Qwen2.5-Math-7B模型在MATH500數據集上的準確率提升達+18.6%。

EgoPush：面向移動機器人的端到端自我中心多物體重排學習（注：EgoPush作為專有名詞保留不譯，通過冒號後的副標題闡明技術內涵。採用「自我中心」對應Egocentric以體現第一視角特性，「端到端」保持End-to-End的標準術語，「多物體重排」準確傳達Multi-Object Rearrangement的技術目標，並通過「面向移動機器人的...學習」完整閉合標題語義鏈條）
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

人類能夠在以自我為中心的感知下重新排列雜亂環境中的物體，無需依賴全域座標系統即可應對遮蔽導航。受此能力啟發，我們研究利用單一自我中心相機實現移動機器人的長時序多物體非抓取式重排任務。本文提出EgoPush——一種策略學習框架，通過設計物件中心的潛在空間來編碼物體間的相對空間關係（而非絕對位姿），使移動機器人能在動態場景中實現不依賴易失效的全域狀態估計、純粹基於自我中心感知的重排操作。該框架讓具備特權資訊的強化學習教師模型能從稀疏關鍵點聯合學習潛在狀態與移動動作，隨後將知識蒸餾至純視覺學生策略。為縮小全知教師與局部觀測學生之間的監督差距，我們將教師的觀測限制在視覺可獲取的線索範圍內，從而誘導出能從學生視角恢復的主動感知行為。針對長時序信用分配難題，我們採用時間衰減的階段性完成獎勵，將重排任務分解為階段級子問題。大量模擬實驗表明，EgoPush在成功率上顯著優於端到端強化學習基準方法，消融實驗也驗證了各設計模塊的有效性。我們進一步在真實移動平台上實現了零樣本的模擬到實物遷移。程式碼與影片請參見：https://ai4ce.github.io/EgoPush/。

SARAH：具備空間感知能力的即時智慧體人類
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

隨著具身代理在虛擬實境、遠程臨場與數位人應用中日益重要，其動作必須超越語音同步的手勢：代理應能轉向用戶、響應其移動並保持自然視線。現有方法缺乏這種空間感知能力。我們通過首個即時全因果的空間感知對話動作生成方法彌補這一空白，該方法可部署於串流式VR頭戴裝置。基於用戶位置與雙人語音數據，我們的方法能生成全身動作，在保持手勢與語音同步的同時，根據用戶方位調整代理朝向。我們的架構結合了基於因果轉換器的變分自編碼器（具交錯潛在標記以實現串流推論）以及根據用戶軌跡與音訊調控的流匹配模型。為支持多樣化視線偏好，我們引入帶有分類器無引導的視線評分機制，實現學習與控制的解耦：模型從數據中捕捉自然的空間對齊規律，而用戶可在推論時調整眼神接觸強度。在Embody 3D數據集上，我們的方法以超過300 FPS的速度達到最先進的動作生成品質——比非因果基準快3倍——同時精準捕捉自然對話中細膩的空間動態。我們在實時VR系統中驗證了該方法，使空間感知對話代理得以實現即時部署。詳情請見 https://evonneng.github.io/sarah/。

阿維-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

在計算與記憶體預算受限的工業級自然語言處理領域，緊湊型預訓練雙向編碼器始終是核心支柱。其效能優勢源於自注意力機制能透過序列級並行化實現高品質的雙向上下文建模，這一特性已由BERT類架構廣泛驗證。近期提出的Avey作為一種無注意力機制的自回歸替代方案，天然支援純編碼器改編。本文將Avey重構為純編碼器範式，並提出多項架構創新：包括解耦的靜態與動態參數化、面向穩定性的歸一化技術及神經壓縮機制。實驗結果表明，該重構架構在四種廣泛使用的基於Transformer的編碼器中表現優異，不僅在標準詞元分類與資訊檢索基準上持續超越對比模型，更能高效擴展至長文本上下文場景。

DeepVision-103K：面向多模態推理的視覺多樣性、廣域覆蓋且可驗證的數學資料集
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

研究顯示，具可驗證獎勵的強化學習（RLVR）能有效增強大型多模態模型（LMM）的視覺反思與推理能力。然而，現有數據集主要源自小規模人工建構或既有資源的重組，限制了數據多樣性與覆蓋範圍，進而制約模型性能的進一步提升。為此，我們提出 DeepVision-103K——一個涵蓋多元 K12 數學主題、廣泛知識點及豐富視覺元素的 RLVR 綜合訓練數據集。基於 DeepVision 訓練的模型不僅在多模態數學基準測試中表現強勁，更能有效泛化至通用多模態推理任務。進一步分析顯示，訓練後的模型在視覺感知、反思與推理能力上均有提升，驗證了 DeepVision 對推進多模態推理的有效性。數據集地址：https://huggingface.co/datasets/skylenage/DeepVision-103K

VidEoMT：你的ViT模型其實也是影片分割模型
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

現有的線上影片分割模型通常結合逐幀分割器與複雜的專用追蹤模組。儘管效果顯著，這些模組卻帶來顯著的架構複雜性與計算負擔。近期研究表明，當具備足夠容量並進行大規模預訓練時，純視覺Transformer（ViT）編碼器無需專用模組即可實現精確的影像分割。受此啟發，我們提出純編碼器影片遮罩Transformer（VidEoMT），這款簡潔的純編碼器影片分割模型無需專用追蹤模組。為在純編碼器ViT中實現時序建模，VidEoMT引入輕量級查詢傳播機制，通過重用前一幀的查詢來跨幀傳遞資訊。為平衡此機制與對新內容的適應性，模型採用查詢融合策略，將傳播查詢與一組時序無關的學習查詢相結合。由此，VidEoMT在無需增加複雜度的前提下獲得追蹤器優勢，在實現競爭性精確度的同時速度提升5–10倍，搭配ViT-L骨幹網路時最高可達160 FPS。程式碼：https://www.tue-mps.org/videomt/

4RC：基于条件查询的随时随地4D重建技术
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

我们提出4RC——一个用于单目视频四维重建的统一前馈框架。与现有方法通常将运动从几何中解耦或仅生成稀疏轨迹、双视角场景流等有限四维属性不同，4RC能够学习整体性四维表征，联合捕捉稠密场景几何与运动动态。其核心创新在于引入"一次编码、任意时空查询"的全新范式：通过Transformer主干网络将整个视频编码为紧凑的时空潜空间，条件解码器可从中高效查询任意目标时间戳下任意帧的三维几何与运动信息。为优化学习过程，我们采用最小化分解形式表示每视角四维属性，将其解构为基础几何和随时间变化的相对运动。大量实验表明，4RC在多种四维重建任务中均优于现有及同期方法。

通过动作雅可比惩罚学习平滑时变线性策略
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

強化學習為學習控制策略提供了一個框架，這些策略能為模擬角色生成多樣化動作。然而此類策略常利用人類或實體機器人無法實現的非自然高頻信號，使其難以真實反映現實世界行為。現有研究通過添加懲罰動作隨時間劇烈變化的獎勵項來解決此問題，但該項往往需要大量調參工作。我們提出使用動作雅可比懲罰項，通過自動微分直接懲罰動作相對於模擬狀態變化的劇烈波動，從而無需針對特定任務調參即可有效消除不現實的高頻控制信號。儘管有效，該懲罰項在傳統全連接神經網絡架構下會帶來顯著計算開銷。為此，我們引入稱為線性策略網絡的新架構，可大幅降低訓練期間計算動作雅可比懲罰項的負擔。此外，線性策略網絡無需參數調優，相比基準方法具有更快的學習收斂速度，且在推理階段的查詢效率優於全連接神經網絡。我們證明，結合動作雅可比懲罰項的線性策略網絡能夠在解決多種特徵各異的動作模仿任務（包括後空翻等動態動作及各種高難度跑酷技能）的同時，生成平滑的控制信號。最後，我們將此方法應用於為配備機械臂的四足機器人創建動態動作控制策略。

扩散语言模型的感知下沉剪枝法
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

扩散语言模型（DLM）因迭代去噪过程导致推理成本高昂，催生了高效剪枝的需求。现有剪枝启发式方法大多沿袭自自回归（AR）大语言模型，通常会保留注意力汇聚标记，因为AR模型的汇聚标记充当着稳定的全局锚点。我们通过实验证明这一假设并不适用于DLM：在整个生成轨迹中（通过主导汇聚位置在时间步间的偏移程度衡量），注意力汇聚位置表现出显著更高的方差，表明DLM中的汇聚标记往往具有瞬时性，其结构重要性远低于AR模型。基于此发现，我们提出**汇聚感知剪枝法**，能够自动识别并剪除DLM中不稳定的汇聚标记（既往研究通常为AR大语言模型保留汇聚标记）。无需重新训练，本方法在匹配计算量下实现了更优的质量-效率平衡，并超越了现有强基准剪枝方法。代码已开源：https://github.com/VILA-Lab/Sink-Aware-Pruning。

基于视觉信息增益的大型视觉语言模型选择性训练方法
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

大型视觉语言模型（LVLM）虽已取得显著进展，但常因语言偏见问题而脱离视觉证据生成答案。现有研究虽尝试通过解码策略、架构调整或精选指令数据来缓解此问题，但普遍缺乏对单个训练样本或词元实际从图像中获益程度的量化评估。本研究提出基于困惑度的视觉信息增益（VIG）指标，通过测量视觉输入带来的预测不确定性降低程度，能在样本和词元层面实现细粒度分析，有效凸显色彩、空间关系及属性等视觉接地元素。基于此，我们设计出VIG引导的选择性训练方案，优先训练高VIG值的样本与词元。该方法通过聚焦于具视觉信息量的内容，在显著减少监督数据量的同时提升视觉接地性、缓解语言偏见，最终实现更优性能。

ReIn：基于推理初始化的对话错误恢复机制
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

基於大型語言模型（LLM）並整合工具功能的對話代理，在固定任務型對話數據集上表現出色，但面對用戶誘發的意外錯誤時仍顯脆弱。與其專注於錯誤預防，本研究著眼於錯誤恢復——這需要精準診斷錯誤對話情境並執行適當的恢復方案。在現實條件限制下（因高昂成本與時間需求而無法進行模型微調或提示修改），我們探討代理能否從情境缺陷的互動中恢復，以及如何在不改變模型參數與提示的前提下調整其行為。為此，我們提出「推理植入」（ReIn），一種在測試階段介入的方法，將初始推理植入代理的決策流程。具體而言，外部植入模組會識別對話情境中的預定義錯誤並生成恢復方案，隨後將這些方案整合至代理的內部推理過程以引導修正行動，且無需修改其參數或系統提示。我們通過系統性模擬阻礙用戶目標達成的對話失敗情境（用戶模糊請求與未支持請求）來評估ReIn。在多種代理模型與植入模組的組合測試中，ReIn顯著提升任務成功率，並能泛化至未見過的錯誤類型。此外，其表現持續優於顯式提示修改方法，凸顯其作為高效即時方法的實用價值。針對其運行機制（特別是與指令層級結構的關聯性）的深入分析表明，結合ReIn定義恢復工具可成為提升對話代理韌性的安全有效策略，且無需修改骨幹模型或系統提示。

Adam优化Muon算法：采用正交化动量的自适应矩估计
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

高效随机优化通常将确定性场景下表现良好的更新方向与适应随机扰动的机制相结合。虽然Adam采用自适应矩估计来提升稳定性，但Muon通过正交化动量利用权重层的矩阵结构，在大型语言模型训练中展现出卓越性能。我们提出新型优化器NAMO及其对角扩展NAMO-D，首次实现正交化动量与基于范数的Adam型噪声自适应原理性融合。NAMO采用单一自适应步长缩放正交化动量，在保持正交性的同时以可忽略的额外成本超越Muon性能。NAMO-D则通过右乘带有限幅项的对角矩阵实现正交化动量变换，该设计支持神经元级噪声自适应，并与常见的近块对角Hessian矩阵结构相契合。在标准假设下，我们为两种算法建立了确定性场景下的最优收敛速率，并证明在随机场景中其收敛保证能自适应随机梯度噪声水平。GPT-2模型预训练实验表明，NAMO与NAMO-D均优于AdamW和Muon基线，其中NAMO-D通过引入平衡"保持良态更新方向"与"利用细粒度噪声自适应"这对竞争目标的限幅超参数，实现了对NAMO的进一步性能提升。

评分标准作为攻击面：LLM评审中隐蔽的偏好漂移
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

针对大语言模型的评估与对齐流程日益依赖基于LLM的评判器，其行为由自然语言量规引导并通过基准测试进行验证。我们发现该工作流中存在一个先前未被充分认识的脆弱性，称之为"量规诱导偏好漂移"。即使量规修改通过了基准验证，仍可能导致评判器在目标领域产生系统性、方向性的偏好偏移。由于量规作为高层决策接口，此类漂移可能源于看似自然且保持评判标准的修改，并通过聚合基准指标或有限抽样检查难以察觉。我们进一步证明该脆弱性可通过基于量规的偏好攻击被利用——符合基准测试的量规修改会使目标领域的判断偏离固定的人类或可信参照标准，系统性地诱发RIPD现象，导致目标领域准确率最高下降9.5%（实用性）和27.9%（无害性）。当这些判断结果被用于生成下游训练所需的偏好标签时，诱导的偏差会通过对齐流程传播并内化至训练后的策略中，最终导致模型行为出现持续系统性的偏移。总体而言，我们的研究揭示了评估量规作为敏感且可操纵的控制接口，展现了一种超越评估器可靠性的系统级对齐风险。代码已开源：https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface。警告：部分内容可能包含不适宜所有读者的潜在有害信息。

为求何事询何人：基于多轮大语言模型交互的自适应群体咨询
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

在存在實際成本限制和數據缺失的情況下，要通過調查及其他集體評估方式獲取信息以降低對潛在群體屬性的不確定性，需要合理分配有限的提問資源。儘管大語言模型支持自然語言的適應性多輪交互，現有的大多數信息誘導方法僅針對固定受訪群體優化提問內容，既未在響應不完整時動態調整受訪者選擇策略，也未有效利用群體結構特徵。為解決這一侷限性，我們研究自適應群體誘導機制——一種在多輪交互中智能體根據明確的提詢問責與參與預算，自適應選擇問題與受訪者的框架。我們提出理論基礎完善的雙重架構：首先採用基於大語言模型的期望信息增益目標函數對候選問題進行評分，其次通過異構圖神經網絡傳播算法聚合已觀測響應與參與者屬性，實現缺失響應的估算並指導每輪的受訪者選擇。這種閉環流程既能查詢少量高信息量的個體，又能通過結構化相似性推斷群體層面的響應。在三個真實世界輿論數據集上的實驗表明，我們的方法在預算受限條件下持續提升群體響應預測精度，其中在僅使用10%受訪者預算時，CES數據集的相對增益超過12%。

EgoPush：面向移動機器人的端到端自我中心多物體重排學習（注：EgoPush作為專有名詞保留不譯，通過冒號後的副標題闡明技術內涵。採用「自我中心」對應Egocentric以體現第一視角特性，「端到端」保持End-to-End的標準術語，「多物體重排」準確傳達Multi-Object Rearrangement的技術目標，並通過「面向移動機器人的...學習」完整閉合標題語義鏈條）
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng