HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

32 papers found

論擴展大型語言模型終端能力的資料工程
On Data Engineering for Scaling LLM Terminal Capabilities

Feb 24

ByRenjie Pi, Grace Lam, Mohammad Shoeybi, Pooya Jannaty, Bryan Catanzaro, Wei Ping

101

儘管大型語言模型的終端能力近期快速進步，頂尖終端代理背後的訓練資料策略仍大多未公開。我們透過對終端代理資料工程實踐的系統性研究來彌補此缺口，提出兩項關鍵貢獻：(1) Terminal-Task-Gen——支援基於種子與技能的任務構建的輕量級合成任務生成流程；(2) 包含過濾、課程學習、長上下文訓練與擴展行為的資料與訓練策略全面分析。我們的流程產出 Terminal-Corpus——一個大規模開源終端任務資料集。使用此資料集，我們訓練了從 Qwen3(8B, 14B, 32B) 初始化的 Nemotron-Terminal 模型系列，在 Terminal-Bench 2.0 上實現顯著提升：Nemotron-Terminal-8B 從 2.5% 提升至 13.0%，Nemotron-Terminal-14B 從 4.0% 提升至 20.2%，Nemotron-Terminal-32B 從 3.4% 提升至 27.4%，達到與更大規模模型相當的效能。為加速該領域研究，我們於 https://huggingface.co/collections/nvidia/nemotron-terminal 開源了模型檢查點與大部分合成資料集。

專注於查詢且具記憶感知的長上下文處理重排器
Query-focused and Memory-aware Reranker for Long Context Processing

Feb 12

ByYuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou

基於現有對大型語言模型中檢索頭的分析，我們提出了一種新型重排序框架，通過訓練模型利用特定注意力頭的分數來評估段落-查詢相關性。該方法提供了一種列表級解決方案，能在排序過程中充分利用候選短名單內的整體信息。同時，該框架自然生成連續相關性分數，無需依賴李克特量表標註即可在任意檢索數據集上進行訓練。我們的框架兼具輕量級與高效性，僅需小規模模型（如40億參數）即可實現強勁性能。大量實驗表明，該方法在多個領域（包括維基百科和長篇敘事數據集）上均超越現有最先進的點對點及列表級重排序模型，並在評估對話理解與記憶使用能力的LoCoMo基準測試中創下新紀錄。我們進一步驗證了框架的靈活擴展性：例如通過添加上下文信息增強候選段落可提升排序準確率，而採用中間層注意力頭進行訓練則能在保持性能的同時提升效率。

PyVision-RL：透過強化學習鍛造開放式智能視覺模型
PyVision-RL: Forging Open Agentic Vision Models via RL

Feb 24

ByShitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei

強化學習在多模態智慧體模型的應用中常面臨互動崩潰問題，即模型傾向減少工具使用與多輪推理，從而限制智慧體行為的優勢。我們提出PyVision-RL——一個針對開放權重多模態模型的強化學習框架，能穩定訓練並維持互動持續性。該方法結合超取樣-篩選-排序的滾動策略與累積式工具獎勵機制，既可防止崩潰又能促進多輪工具使用。通過統一訓練流程，我們開發了用於圖像與影片理解的PyVision-Image和PyVision-Video模型。在影片推理任務中，PyVision-Video採用按需上下文建構技術，於推理過程中選擇性抽樣任務相關影格，顯著降低視覺標記的使用量。實驗結果顯示出卓越的性能與效率提升，證實持續互動與按需視覺處理對可擴展多模態智慧體的關鍵作用。

基於鍵值綁定的測試時訓練實為線性注意力的隱藏形式
Test-Time Training with KV Binding Is Secretly Linear Attention

Feb 24

ByJunchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li

將鍵值綁定作為序列建模層的測試時訓練，通常被解讀為一種在測試時記憶鍵值映射的線上元學習形式。然而，我們的分析發現多個與這種基於記憶的解釋相矛盾的現象。基於這些發現，我們重新審視了測試時訓練的數學表述，證明一大類測試時訓練架構均可表述為某種學習型線性注意力運算元。這一觀點不僅能解釋先前令人困惑的模型行為，更帶來多項實際優勢：它支持基於理論的架構簡化，實現能保持性能同時提升效率的完全並行化表述，並能將多樣化的測試時訓練變體系統性地歸約為標準線性注意力形式。總體而言，我們的研究將測試時訓練重新定義為具有增強表徵能力的學習型線性注意力機制，而非測試階段的記憶行為。

從感知到行動：視覺推理的互動式基準測試
From Perception to Action: An Interactive Benchmark for Vision Reasoning

Feb 24

ByYuhao Wu, Maojia Song, Yihuai Lan, Lei Wang, Zhiqiang Hu, Yao Xiao, Heng Zhou, Weihua Zheng, Dylan Raharja, Soujanya Poria, Roy Ka-Wei Lee

理解物理結構對於實體智能體、互動設計及長時序操作等現實應用至關重要。然而，當前主流視覺語言模型的評估仍聚焦於無結構感知的單輪交互設定（如視覺問答），這類設定無法有效評測智能體在動態環境中，如何綜合推理幾何形狀、接觸關係與支撐關係等物理約束對可行動作的聯合限制。為填補此空白，我們提出「動作與互動的因果層級鏈」基準——一個互動式三維物理驅動測試平台，旨在評估模型能否基於物理約束理解、規劃並執行結構化動作序列。CHAIN將評估範式從被動感知轉向主動問題解決，涵蓋連鎖機械拼圖、三維堆疊與裝填等多類任務。我們在統一互動設定下對前沿視覺語言模型與基於擴散技術的模型展開全面研究。結果表明，頂尖模型仍難以內化物理結構與因果約束，常無法生成可靠的長時序計劃，且未能穩健地將感知結構轉化為有效動作。項目詳見：https://social-ai-studio.github.io/CHAIN/。

多模態下的多向量索引壓縮技術
Multi-Vector Index Compression in Any Modality

Feb 24

ByHanxiang Qin, Alexander Martin, Rohan Jha, Chunsheng Zuo, Reno Kriz, Benjamin Van Durme

我們研究用於跨模態延遲交互的高效多向量檢索技術。延遲交互已成為文本、圖像、視覺文檔和視頻信息檢索的主流範式，但其計算與存儲成本隨文檔長度線性增長，對圖像、視頻及音頻密集型語料庫成本高昂。為突破此限制，我們探索在固定向量預算下對多向量文檔表徵進行查詢無關的壓縮方法。我們提出四種索引壓縮技術：序列縮放、記憶標記、層次池化以及新穎的注意力引導聚類（AGC）。AGC採用注意力引導機制識別文檔語義最顯著的區域作為聚類中心，並加權標記聚合。通過在文本（BEIR）、視覺文檔（ViDoRe）和視頻（MSR-VTT、MultiVENT 2.0）檢索任務上的評估，我們發現注意力引導聚類始終優於其他參數化壓縮方法（序列縮放與記憶標記），相比非參數化層次聚類具有更靈活的索引尺寸調控能力，並在與完整未壓縮索引的對比中實現了競爭性甚至更優的性能。源代碼已開源於：github.com/hanxiangqin/omni-col-press。

QuantVLA：面向视觉-语言-动作模型的尺度校准后训练量化方法
QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Feb 23

ByJingxuan Zhang, Yunta Hsieh, Zhongwei Wang, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang

視覺-語言-動作（VLA）模型雖能統一具身智能體的感知、語言與控制能力，但在實際部署中面臨計算與記憶體需求急遽增長的挑戰，尤其當模型擴展至更長時序與更大骨幹網絡時更為顯著。為突破這些瓶頸，我們提出QuantVLA——一種無需訓練的訓練後量化（PTQ）框架。據我們所知，這是首個針對VLA系統的PTQ方法，也是首個成功量化擴散變換器（DiT）動作頭的策略。QuantVLA包含三個尺度校準組件：（1）選擇性量化佈局：將語言骨幹與DiT中所有線性層整數化，同時保持注意力投影層為浮點運算以維持原始運算調度；（2）注意力溫度匹配：通過輕量級逐頭縮放機制穩定注意力邏輯值，並在推理時將其摺疊至反量化尺度中；（3）輸出頭平衡：通過逐層殘差接口校準緩解投影後的能量漂移。該框架無需額外訓練，僅需少量未標註校準數據，支持低比特權重與激活值的整數核運算，且不改變模型架構。在LIBERO數據集的代表性VLA模型測試中，QuantVLA不僅超越全精度基準的任務成功率，更在量化組件上實現約70%的相對記憶體節省，端到端推理延遲加速達1.22倍，為在嚴格計算、記憶體與功耗限制下實現可擴展的低比特具身智能提供了實用路徑。

DREAM：基於智慧體度量的深度研究評估
DREAM: Deep Research Evaluation with Agentic Metrics

Feb 21

ByElad Ben Avraham, Changhao Li, Ron Dorfman, Roy Ganz, Oren Nuriel, Amir Dudai, Aviad Aberdam, Noah Flynn, Elman Mansimov, Adi Kalyanpur, Ron Litman

深度研究代理能生成分析師級別的報告，但由於缺乏單一標準答案且研究質量具有多維特性，其評估仍面臨挑戰。現有基準雖提出不同方法論，卻普遍存在「綜合幻象」問題——表面流暢性與文獻引用高度吻合的表象，可能掩蓋深層的事實性與推理缺陷。我們通過構建四維分類法揭示關鍵能力錯配：靜態評估器本質上缺乏評估時效有效性與事實正確性所需的工具使用能力。為此，我們提出DREAM框架（基於代理指標的深度研究評估），通過使評估本身具備代理特性來實現能力對等原則。DREAM採用結合查詢無關指標與工具調用代理生成自適應指標的評估協議，實現時序感知覆蓋、實證驗證與系統化推理探測。對照實驗表明，DREAM對事實性衰退和時效性衰減的檢測靈敏度顯著優於現有基準，提供了一種可擴展的無參考評估範式。

洞察與修復瑕疵：透過代理式資料合成讓視覺語言模型與擴散模型理解視覺偽影
See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Feb 24

ByJaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park

儘管擴散模型近期有所進展，AI生成影像仍常出現損害真實性的視覺偽影。雖然更全面的預訓練與更大的模型或能減少偽影，但無法保證能完全消除，這使得偽影緩解成為極關鍵的研究領域。過往的偽影感知方法依賴人工標註的偽影資料集，其成本高昂且難以擴展，凸顯了需要自動化方法來可靠獲取偽影標註資料集的需求。本文提出ArtiAgent，能高效創建真實影像與注入偽影的影像配對。該系統包含三個代理：感知代理負責從真實影像中識別並定位實體與子實體，合成代理透過在擴散轉換器中實施新穎的區塊嵌入操作，使用偽影注入工具引入偽影，以及策展代理負責篩選合成後的偽影並為每個實例生成局部與全局解釋。利用ArtiAgent，我們合成了10萬張具有豐富偽影標註的影像，並在多樣化應用中展現其效能與通用性。程式碼公開於連結。

LongCLI-Bench：命令列介面中長時序代理程式設計的初步基準與研究
LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Feb 15

ByYukang Feng, Jianwen Sun, Zelai Yang, Jiaxin Ai, Chuanhao Li, Zizhen Li, Fanrui Zhang, Kang He, Rui Ma, Jifan Lin, Jie Sun, Yang Xiao, Sizhuo Zhou, Wenxiao Wu, Yiming Liu, Pengfei Liu, Yu Qiao, Shenglin Zhang, Kaipeng Zhang

近期人工智慧輔助程式設計的進展已使智慧代理能夠透過命令列介面執行複雜工作流程，然而現有基準測試存在三大侷限：任務視野長度不足、GitHub資料爬取導致的數據污染，以及缺乏細粒度評估指標，無法嚴格評估現實軟體工程所需的長視野規劃與執行能力。為解決這些缺陷，我們推出LongCLI-Bench——專為評估長視野現實任務中代理能力而設計的綜合基準測試。我們從逾千份計算機科學作業與真實工作流程中精選20項高品質長視野任務，涵蓋四大工程類別：從零開發、功能擴充、錯誤修復與程式重構。我們提出雙重測試機制，分別衡量需求達成度（失敗轉成功）與回歸規避度（成功保成功），並引入步驟級評分以精準定位執行故障。大規模實驗顯示，即使頂尖代理在LongCLI-Bench中的通過率也低於20%。步驟級分析進一步表明，多數任務在完成度不足30%時便陷入停滯，凸顯關鍵故障往往發生於早期階段。雖然自我修正能帶來有限提升，但透過計劃注入與互動指導的人機協作可實現顯著改進。這些結果強調，未來研究必須在提升代理規劃執行能力的同時，重點發展協同式人機工作流程，方能突破長視野任務效能的核心挑戰。

Conv-FinRe：面向實用性金融推薦的對話式縱向基準測試集
Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation

Feb 19

ByYan Wang, Yi Han, Lingfei Qian, Yueru He, Xueqing Peng, Dongji Feng, Zhuohan Xie, Vincent Jim Zhang, Rosie Guo, Fengran Mo, Jimin Huang, Yankai Chen, Xue Liu, Jian-Yun Nie

當前多數推薦基準主要評估模型模仿用戶行為的準確度。然而在金融顧問領域，受市場波動影響，觀察到的用戶行為可能帶有雜訊或缺乏遠見，甚至與用戶的長期目標相悖。若僅將用戶的實際選擇視為唯一標準，便會混淆行為模仿與決策品質的界線。為此，我們提出Conv-FinRe——一個專注於股票推薦的對話式縱向基準，其評估重點超越單純的行為匹配。該基準要求模型在獲取用戶背景訪談、逐步更新的市場情境及顧問對話後，於固定投資週期內生成股票排名。關鍵在於，Conv-FinRe提供多視角參考標準，區分基於投資者特定風險偏好的規範性效用與描述性行為，從而診斷LLM是遵循理性分析、模仿用戶雜訊，還是受市場趨勢驅動。我們基於真實市場數據與人類決策軌跡構建此基準，設計受控的顧問對話情境，並評估一系列前沿LLM。結果顯示理性決策品質與行為對齊間存在持續矛盾：基於效用排名表現優異的模型常無法匹配用戶選擇，而行為對齊的模型則可能過度擬合短期雜訊。本數據集已公開於Hugging Face，程式碼庫發布於GitHub。

通用大语言模型代理的基准测试时扩展研究
Benchmark Test-Time Scaling of General LLM Agents

Feb 22

ByXiaochuan Li, Ryan Ming, Pranav Setlur, Abhijay Paladugu, Andy Tang, Hao Kang, Shuai Shao, Rong Jin, Chenyan Xiong

随着LLM智能体日益被期待成为能够处理开放式用户请求的通用系统，现有基准测试主要聚焦于开发专用智能体的领域感知环境，而评估通用智能体则需要更贴近现实的设定，以检验其在统一环境中跨越多重技能与工具的操作能力。我们推出General AgentBench基准测试框架，为评估通用LLM智能体在搜索、编程、推理及工具使用等领域的表现提供统一平台。通过该框架，我们系统研究了顺序扩展（迭代交互）与并行扩展（多轨迹采样）两种测试时扩展模式下的性能变化规律。对十款主流LLM智能体的评估表明，从领域特定评估转向通用智能体设定时存在显著的性能衰减现象。进一步分析发现，由于顺序扩展中的上下文天花板效应与并行扩展中的验证鸿沟这两大根本性局限，实践中两种扩展方法均未能实现有效的性能提升。相关代码已开源：https://github.com/cxcscmu/General-AgentBench。

PETS：一种面向高效测试时自洽性最优轨迹分配的 principled 框架
PETS: A Principled Framework Towards Optimal Trajectory Allocation for Efficient Test-Time Self-Consistency

Feb 18

ByZhangyi Liu, Huaizhi Qu, Xiaowei Yin, He Sun, Yanjun Han, Tianlong Chen, Zhun Deng

测试时缩放技术通过聚合随机推理轨迹能够提升模型性能，然而在有限预算下实现样本高效的测试时自一致性仍是一个开放难题。我们提出PETS（原则化高效测试时自一致性）方法，通过优化框架对轨迹分配展开原则性研究。该方法的核心理念是自一致率——一种定义为与无限预算多数投票结果一致性的新度量标准。该公式使样本高效的测试时分配具有理论依据并适用于严谨分析。我们研究了离线和在线两种场景：在预先获知所有问题的离线场景中，通过将推理轨迹建模为工作者，我们将轨迹分配问题与经典且发展成熟的众包领域相联系，这一视角使我们能利用丰富的现有理论，获得理论保证并开发出基于多数投票的高效分配算法；在问题顺序到达、需实时分配资源的在线流式场景中，我们受离线框架启发提出新方法，该方法能根据问题难度自适应调整预算，同时保持强理论保证和计算效率。实验表明PETS持续优于均匀分配策略，在GPQA数据集上，PETS在两种场景下均实现完美自一致性，同时相比均匀分配将采样预算降低达75%（离线）和55%（在线）。代码详见https://github.com/ZDCSlab/PETS。

磁带：语言模型代理中的工具引导自适应规划与约束执行
TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents

Feb 23

ByJongwon Jeong, Jungtaek Kim, Kangwook Lee

语言模型（LM）智能体在需要与环境进行多重交互的任务中展现出卓越能力，但在单次错误即导致不可逆失败的场景中仍显脆弱，尤其是在严格可行性约束条件下。我们系统分析了现有智能体框架，将不完善规划与随机执行确定为主要症结。为此，我们提出具有约束执行的工具引导自适应规划框架（TAPE）。该框架通过将多重规划方案聚合为有向图，并调用外部求解器识别可行路径来增强规划能力；在执行阶段采用约束解码降低采样噪声，并在环境反馈偏离预期状态时启动自适应重规划。在Sokoban、ALFWorld、MuSiQue和GSM8K-Hard数据集上的实验表明，TAPE始终优于现有框架，在困难场景中提升尤为显著：困难设置平均成功率提升21.0个百分点，弱基础模型平均提升20.0个百分点。代码与数据详见此处。

高效推理的艺术：数据、奖励与优化
The Art of Efficient Reasoning: Data, Reward, and Optimization

Feb 24

ByTaiqiang Wu, Zenan Zu, Bo Zhou, Ngai Wong

大型语言模型（LLMs）持续受益于规模化的思维链推理，但同时也承受着沉重的计算开销。为解决这一问题，高效推理技术旨在通过强化学习的奖励塑造机制，激励模型生成简短而准确的思维轨迹。本文系统性地研究了LLMs高效推理的内在机制。为进行全面评估，我们提出采用更细粒度的指标，包括基于正确性的长度分布分析，以及在2k至32k令牌预算范围内的综合性能表现。研究发现，训练过程遵循两阶段范式：长度适应与推理优化。随后我们通过统一实验框架（累计约20万GPU小时）开展广泛实验，解构了训练提示词与推演过程、奖励函数设计及优化策略。关键发现表明：在相对简单的提示词上训练可确保正向奖励信号的密度，从而避免长度塌陷问题；同时，习得的长度偏好具备跨领域泛化能力。我们将所有发现提炼为具有实践价值的指导原则，并在Qwen3系列模型（0.6B至30B参数规模）上进行验证，证明了其鲁棒性与泛化能力。

RankEvolve：基于大语言模型驱动的进化机制实现检索算法自动发现
RankEvolve: Automating the Discovery of Retrieval Algorithms via LLM-Driven Evolution

Feb 18

ByJinming Nian, Fangchen Li, Dae Hoon Park, Yi Fang

儘管BM25和狄利克雷平滑的查詢似然模型等檢索算法仍是高效強健的首階段排序器，但其改進大多依賴於參數調優與人工經驗。本研究探討能否通過評估器引導的大語言模型結合演化搜索，自動發現更優的詞法檢索算法。我們基於AlphaEvolve框架提出RankEvolve程序演化系統：將候選排序算法表示為可執行代碼，並根據其在BEIR與BRIGHT平臺12個IR數據集上的檢索效果進行迭代變異、重組和選擇。RankEvolve以BM25和狄利克雷平滑查詢似然模型作為初始種子程序，最終演化出的算法兼具新穎性與有效性，不僅在完整版BEIR、BRIGHT基準測試中表現優異，還能良好遷移至TREC DL 19/20數據集。實驗結果表明，評估器引導的LLM程序演化是實現排序算法自動發現的可行路徑。

阿莱西娅自主攻克第一证明难题。
Aletheia tackles FirstProof autonomously

Feb 24

ByTony Feng, Junehyuk Jung, Sang-hyun Kim, Carlo Pagano, Sergei Gukov, Chiang-Chiang Tsai, David Woodruff, Adel Javanmard, Aryan Mokhtari, Dawsen Hwang, Yuri Chervonyi, Jonathan N. Lee, Garrett Bingham, Trieu H. Trinh, Vahab Mirrokni, Quoc V. Le, Thang Luong

我们在首届FirstProof挑战赛中报告了基于Gemini 3 Deep Think的数学研究智能体Aletheia（Feng等人，2026b）的表现。在挑战赛规定时限内，根据多数专家评估，Aletheia自主解决了10道题目中的6道（第2、5、7、8、9、10题）；需要说明的是，仅针对第8题专家意见未达成一致。为保持完全透明，我们阐述了对FirstProof规则的理解，并公开了实验细节与评估方法。原始提示词及输出结果详见https://github.com/google-deepmind/superhuman/tree/main/aletheia。

《解缚尤利西斯：基于头向分块的内存高效上下文并行方法》
Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

Feb 24

ByRavi Ghadia, Maksim Abraham, Sergei Vorobyov, Max Ryabinin

在Transformer模型中高效处理长序列通常需要通过上下文并行化将计算任务分配到多个加速器上。该类方法的主流方案（如环形注意力或DeepSpeed Ulysses）虽能实现上下文维度的扩展，但未聚焦内存效率问题，从而限制了可支持的序列长度。更先进的技术（如全流水线分布式Transformer或激活值卸载）虽能进一步扩展上下文长度，但会以降低训练吞吐量为代价。本文提出UPipe——一种在注意力头层级进行细粒度分块的简洁而高效的上下文并行技术。该技术显著降低了自注意力机制的激活内存占用，突破了激活内存瓶颈，从而支持更长的上下文长度。在32B参数规模的Transformer模型中，我们的方法将注意力层的中间张量内存占用降低了87.5%，同时保持了与既有上下文并行技术相当的训练速度。在单台8×H100节点上训练Llama3-8B模型时，UPipe可支持500万标记的上下文长度，较现有方法提升超过25%。

一步式连续去噪语言建模
One-step Language Modeling via Continuous Denoising

Feb 18

ByChanhyuk Lee, Jaehoon Yoo, Manan Agarwal, Sheel Shah, Jerry Huang, Aditi Raghunathan, Seunghoon Hong, Nicholas M. Boffi, Jinwoo Kim

基于离散扩散的语言模型因其有望实现比自回归模型更快的生成速度而广受关注。然而在实际应用中，这类模型在少步数生成场景下会出现样本质量的急剧下降，未能兑现其潜力。本文研究表明，利用基于流的连续去噪方法构建的语言模型，在生成质量和速度上均能超越离散扩散模型。通过重新审视离散模态上流模型的基本原理，我们构建了基于流的语言模型（FLM），该模型在独热编码的词元表示空间执行欧几里得去噪操作。我们证明该模型可通过交叉熵目标预测纯净数据的方式进行训练，并引入一种简单的时间重参数化方法，显著提升了训练稳定性和生成质量。通过将FLM蒸馏至其关联的流映射，我们获得了具备少步生成能力的蒸馏流映射语言模型（FMLM）。在LM1B和OWT语言数据集上，FLM的生成质量达到了最先进离散扩散模型的水平。而FMLM则在所有指标上全面超越近期的少步生成语言模型，其单步生成质量甚至优于这些模型的8步生成效果。本研究对"离散扩散过程是离散模态生成建模的必要条件"这一广泛接受的假设提出了质疑，为大规模流式语言模型的加速发展开辟了新路径。代码已发布于https://github.com/david3684/flm。

隐性智能——基于用户未言之语评估智能体
Implicit Intelligence -- Evaluating Agents on What Users Don't Say

Feb 23

ByVed Sirdeshmukh, Marc Wetter

现实世界中对智能体的请求本质上具有未充分说明的特性。人类自然交流依赖于共享语境和未言明的约束条件，说话者期望听话者能够自行推断。当前智能体基准测试主要检验显式指令遵循能力，却未能评估智能体是否能够推理涉及可访问性需求、隐私边界、灾难性风险及情境约束的隐性要求。我们提出"隐性智能"评估框架，通过"世界即代理"测试平台（交互世界由人类可读的YAML文件定义并由语言模型模拟），检验AI智能体能否从单纯指令执行进阶为真正的目标实现者。我们的测试场景具有用户请求表面简单、正确解决方案隐含复杂性、约束条件可通过环境探索发现三大特征。在对16个前沿开源模型进行205个场景测试后，我们发现即使表现最佳的模型场景通过率也仅为48.3%，这表明在弥合字面指令执行与类人情境推理之间的差距方面仍存在巨大改进空间。

从试错中学习：具身大语言模型的反思式测试时规划
Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs

Feb 24

ByYining Hong, Huang Huang, Manling Li, Li Fei-Fei, Jiajun Wu, Yejin Choi

具身化大型语言模型虽赋予机器人高层次任务推理能力，但其无法反思错误成因，导致部署过程沦为一系列独立试错循环——错误不断重复而非积累为经验。受人类反思实践者启发，我们提出反射式测试时规划框架，融合两种反思模式：行动中反思（智能体通过测试时缩放生成多组候选动作，在执行前通过内部反思进行评分）与行动后反思（通过测试时训练，在执行后基于外部反思更新内部反思模型与行动策略）。我们还引入回溯反思机制，使智能体能够重新评估早期决策，并利用事后认知进行模型更新，实现有效的长周期信用分配。在新设计的长周期家庭任务基准与MuJoCo橱柜适配基准上的实验表明，该方法显著超越基线模型，消融研究验证了两种反思模式的互补作用。包括真实机器人试验在内的定性分析，凸显了反思机制对行为修正的促进作用。

面向结构化图像表征的通信启发式分词方法
Communication-Inspired Tokenization for Structured Image Representations

Feb 24

ByAram Davtyan, Yusuf Sahin, Yasaman Haghighi, Sebastian Stapf, Pablo Acuaviva, Alexandre Alahi, Paolo Favaro

离散图像分词器已成为现代视觉与多模态系统的关键组件，为基于Transformer的架构提供了序列化接口。然而，现有方法主要仍针对重建和压缩进行优化，其生成的标记往往捕捉局部纹理而非物体级语义结构。受人类交流的渐进性与组合性启发，我们提出通信启发式分词框架COMiT，用于学习结构化离散视觉标记序列。该框架通过在固定标记预算内迭代观察局部图像区块并循环更新离散表示来构建潜在信息。模型在每一步整合新视觉信息的同时，会对现有标记序列进行优化重组。经过多次编码迭代后，最终信息将作用于流匹配解码器以重建完整图像。编码和解码过程均在同一Transformer模型内实现，并通过结合流匹配重建与语义表示对齐的损失函数进行端到端训练。实验表明，语义对齐虽能提供基础支撑，但注意力驱动的序列化分词对于生成可解释的以物体为中心的标记结构至关重要，可显著提升组合泛化与关系推理能力，超越现有方法。

基于数据标准化的生成式人工智能与机器学习协同预测集装箱滞留时间
Generative AI and Machine Learning Collaboration for Container Dwell Time Prediction via Data Standardization

Feb 24

ByMinseop Kim, Takhyeong Kim, Taekhyun Park, Hanbyeol Park, Hyerim Bae

进口集装箱滞留时间预测是提升码头作业效率的关键任务，精准预测能有效减少场桥翻箱作业。实现这一目标需准确预测单个集装箱的滞留时长，但决定滞留时间的主要因素——货主信息与货物信息——均以非结构化文本形式记录，限制了机器学习模型的有效利用。本研究提出生成式人工智能与机器学习协同的解决方案，通过Gen AI将非结构化信息标准化为国际代码，并利用电子数据交换状态更新触发动态重预测，使机器学习模型能精准预测ICDT。基于真实码头数据的实验表明：相较于未使用标准化信息的传统模型，该方法在平均绝对误差指标上提升13.88%；将改进后的预测应用于堆存策略，可实现翻箱次数最高减少14.68%，实证了Gen AI提升码头运营效率的潜力。本研究从技术路径与方法论层面，为生成式人工智能在港口物流领域的应用提供了有效性与实施洞见。

SIMSPINE：面向三維脊柱運動標註與基準測試的生物力學感知仿真框架
SIMSPINE: A Biomechanics-Aware Simulation Framework for 3D Spine Motion Annotation and Benchmarking

Feb 24

ByMuhammad Saif Ullah Khan, Didier Stricker

脊柱运动建模是理解人体生物力学的基礎，然而由於脊柱複雜的多關節運動特性以及大規模三維標註數據的缺失，該領域在計算機視覺中仍未被充分探索。我們提出一種生物力學感知的關鍵點模擬框架，通過從肌肉骨骼模型推導出解剖學一致的三維脊柱關鍵點，對現有人體姿態數據集進行擴充。基於此框架，我們創建了首個開放數據集SIMSPINE，該數據集為無外部約束的室內多相機採集環境下，自然全身運動提供稀疏的椎骨級三維脊柱標註。包含214萬幀數據的SIMSPINE能夠從細微姿勢變化中實現數據驅動的椎骨運動學學習，彌合了肌肉骨骼模擬與計算機視覺領域間的鴻溝。此外，我們發布了預訓練基線模型，涵蓋微調後的二維檢測器、單目三維姿態提升模型和多視角重建流程，為生物力學有效的脊柱運動估計建立了統一基準。具體而言，我們的二維脊柱基線在受控環境中將最先進水平的AUC從0.63提升至0.80，在自然場景脊柱追蹤中將AP從0.91提升至0.93。該模擬框架與SIMSPINE數據集共同推動了基於視覺的生物力學、運動分析與數字人建模研究，實現了自然條件下可重現、解剖學基礎紮實的三維脊柱估計。

扩散对偶论，第二章：Ψ采样器与高效课程学习
The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

Feb 24

ByJustin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo

均匀状态离散扩散模型因其具备自我校正能力，在少步生成与引导任务中表现卓越，使其在这些场景下优于自回归或掩码扩散模型。然而当采用祖先采样器时，其采样质量会随步数增加而进入平台期。我们提出了一类适用于离散扩散的预测器-校正器（PC）采样器，该系列不仅泛化了现有方法，还可应用于任意噪声过程。当与均匀状态扩散结合时，我们的采样器在语言和图像建模任务上均超越祖先采样：在OpenWebText数据集上实现了相同单字熵条件下更低的生成困惑度，在CIFAR10数据集上获得了更优的FID/IS分数。关键的是，与传统采样器不同，我们的PC方法能随采样步数增加持续提升性能。这些发现共同对"掩码扩散是扩散式语言建模必然发展方向"的假设提出了质疑。在采样技术之外，我们还为高斯松弛训练阶段开发了内存高效的课程学习方案，与Duo相比训练时间减少25%、内存占用降低33%，同时在OpenWebText和LM1B数据集上保持相当困惑度，并具备强劲的下游任务性能。我们已通过https://s-sahoo.com/duo-ch2发布代码、检查点及视频教程。

OmniOCR：少数民族语言通用光学字符识别系统
OmniOCR: Generalist OCR for Ethnic Minority Languages

Feb 24

ByBonan Liu, Zeyu Zhang, Bingbing Meng, Han Wang, Hanshuo Zhang, Chengping Wang, Daji Ergu, Ying Cai

随着深度学习和多模态模型的快速发展，光学字符识别（OCR）技术取得了长足进步，但现有方法大多聚焦于拉丁文、中文等资源丰富语种。由于文字系统复杂、标注数据稀缺、古今形态多样等因素，少数民族文字OCR研究仍处于探索不足的状态，导致在低资源或零样本场景下的泛化能力面临挑战。为此，我们提出面向少数民族文字的通用识别框架OmniOCR。该框架创新性地引入动态低秩自适应机制（Dynamic LoRA），通过跨层级和跨文字的动态容量分配，在保持原有知识的前提下实现高效适配。结合稀疏正则化技术修剪冗余参数更新，可在不增加推理成本的前提下实现紧凑高效的模型适应。在TibetanMNIST、水书、古彝文和东巴文数据集上的实验表明，OmniOCR在零样本基础模型和标准后训练方法中均取得最优效果，以卓越的参数效率达到当前最先进精度水平。与基线模型相比，在四个数据集上的识别准确率提升39%-66%。代码地址：https://github.com/AIGeeksGroup/OmniOCR。

OCR智能体：具备能力与记忆反思的智能光学字符识别系统
OCR-Agent: Agentic OCR with Capability and Memory Reflection

Feb 24

ByShimin Wen, Zeyu Zhang, Xingdou Bian, Hongjie Zhu, Lulu He, Layi Shama, Daji Ergu, Ying Cai

大型视觉语言模型（VLMs）通过迭代优化方法在复杂视觉理解任务中展现出显著潜力。然而，这类模型普遍缺乏有效的自我修正机制，难以自主纠正认知偏差，导致在多轮修正过程中常陷入重复无效的尝试，无法实现答案质量的稳定提升。针对这一问题，我们提出了一种新型迭代自校正框架，使模型具备双重关键能力：能力反思与记忆反思。该框架引导模型首先通过能力反思诊断错误并制定修正计划，继而借助记忆反思回溯过往尝试以避免重复、探索新方案，最终通过严谨的再推理优化答案。在挑战性基准OCRBench v2上的实验表明，OCR-Agent在英文和中文子集上分别以+2.0和+1.2的分数超越当前开源SOTA模型InternVL3-8B，同时在视觉理解（79.9分）与推理（66.5分）任务中达到顶尖水平——甚至优于规模更大的微调模型。我们的方法证明，结构化的自我感知反思能显著增强VLMs的推理鲁棒性，且无需额外训练。代码地址：https://github.com/AIGeeksGroup/OCR-Agent。

自适应文本匿名化：通过提示优化学习隐私与效用的权衡
Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Feb 24

ByGabriel Loiseau, Damien Sileo, Damien Riquet, Maxime Meyer, Marc Tommasi

文本文件匿名化是一个高度依赖上下文的问题：隐私保护与数据效用之间的平衡点会随数据领域、隐私目标和下游应用场景的变化而动态调整。然而，现有匿名化方法依赖静态的人工设计策略，缺乏适应多样化需求的灵活性，且往往难以跨领域泛化。我们提出自适应文本匿名化这一新任务范式，通过自动调整匿名化策略来满足特定隐私-效用需求。我们开发了一种面向任务的提示优化框架，能够自动构建适用于语言模型的匿名化指令，从而适配不同的隐私目标、领域场景和下游使用模式。为评估该方法，我们构建了涵盖五个数据集的基准测试平台，这些数据集具有多样化的领域特征、隐私约束和效用目标。在所有测试场景中，我们的框架始终比现有基线方法获得更优的隐私-效用平衡，同时保持计算高效性，在开源语言模型上表现优异，其性能可与规模更大的闭源模型相媲美。此外，我们还证明该方法能发掘出沿隐私-效用边界探索不同平衡点的创新匿名化策略。

TextPecker：通过奖励结构化异常量化增强视觉文本渲染
TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

Feb 24

ByHanshen Zhu, Yuliang Liu, Xuecheng Wu, An-Lan Wang, Hao Feng, Dingkang Yang, Chao Feng, Can Huang, Jingqun Tang, Xiang Bai

视觉文本渲染（VTR）始终是文生图领域的关键挑战，即使先进模型也常生成存在结构异常的文字，如扭曲、模糊和错位。然而我们发现，主流多模态大语言模型和专业OCR模型大多无法感知这类结构异常，这为VTR评估和基于强化学习的优化形成了关键瓶颈。因此，连顶尖生成器（如SeedDream4.0、Qwen-Image）仍难以渲染结构保真的文本。针对此问题，我们提出TextPecker——一种即插即用的结构异常感知强化学习策略，可缓解噪声奖励信号干扰，并能适配任意文生图生成器。为实现该能力，我们构建了带有字符级结构异常标注的识别数据集，并开发笔画编辑合成引擎以扩展结构错误覆盖范围。实验表明，TextPecker能持续提升多样化的文生图模型性能；即使在经过充分优化的Qwen-Image模型上，其中文文本渲染的结构保真度平均提升4%，语义对齐度显著提高8.7%，创下高保真VTR的新标杆。本研究填补了VTR优化领域的空白，为实现可靠且结构保真的视觉文本生成奠定了基石。

LaS-Comp：基于隐空间一致性的零样本三维补全
LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency

Feb 21

ByWeilong Yan, Haipeng Li, Hao Xu, Nianjin Ye, Yihao Ai, Shuaicheng Liu, Jingyu Hu

本文提出LaS-Comp——一种零样本且类别无关的三维形状补全方法，该方法通过利用三维基础模型丰富的几何先验知识，实现对各类局部观测数据的形状补全。我们的贡献主要体现在三方面：首先，通过互补的双阶段设计利用生成先验进行补全：（i）显式替换阶段保留局部观测几何特征以确保补全结果的忠实度；（ii）隐式优化阶段确保观测区域与合成区域实现无缝边界衔接。其次，本框架无需训练即可适配不同三维基础模型。第三，我们构建了Omni-Comp综合基准数据集，融合真实场景与合成数据并包含多样化挑战性局部模式，可实现更全面真实的性能评估。定量与定性实验均表明，本方法优于现有最优方法。相关代码与数据详见https://github.com/DavidYan2001/LaS-Comp{LaS-Comp}。

FlowPrefill：将抢占机制与预填充调度粒度解耦以缓解大语言模型服务中的队头阻塞问题
FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Feb 18

ByChia-chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen

大型语言模型（LLM）日益增长的需求要求服务系统能够处理大量具有多样化服务级别目标（SLO）的并发请求。这加剧了计算密集型预填充阶段中的队头（HoL）阻塞问题——长时间运行的请求会垄断资源并延迟高优先级请求，导致大范围的首令牌时间（TTFT）SLO违规。虽然分块预填充实现了可中断性，但它在响应速度与吞吐量之间形成了固有权衡：减小分块尺寸能改善响应延迟但会降低计算效率，而增大分块尺寸可最大化吞吐量却会加剧阻塞。这需要一种自适应抢占机制，但如何动态平衡执行粒度与调度开销仍是核心挑战。本文提出FlowPrefill，一种基于TTFT-优质吞吐量优化的服务系统，通过将抢占粒度与调度频率解耦来解决这一矛盾。为实现自适应预填充调度，FlowPrefill引入两大创新：1）算子级抢占技术，利用算子边界实现细粒度执行中断，避免固定小分块带来的效率损失；2）事件驱动调度机制，仅在请求到达或完成事件时触发调度决策，从而在最小化控制面开销的同时支持高效抢占响应。基于真实生产环境的追踪实验表明，FlowPrefill在满足异构SLO的前提下，相较最先进系统将最大优质吞吐量提升达5.6倍。

基于主动重构的语言模型训练数据检测方法研究
Learning to Detect Language Model Training Data via Active Reconstruction

Feb 22

ByJunjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi

检测大型语言模型训练数据通常被定义为成员推理攻击问题。然而传统MIA方法被动地基于固定模型权重，利用对数似然或文本来生成进行检测。本研究提出主动数据重构攻击（ADRA）——一类通过主动诱导模型在训练过程中重构给定文本来实现MIA的新方法。我们假设训练数据比非成员数据更具可重构性，这种可重构性差异可用于成员资格推断。基于强化学习能锐化权重中已有行为的研究发现，我们采用同策略强化学习技术，通过微调从目标模型初始化的策略来主动激发数据重构。为有效实现基于RL的MIA，我们设计了重构度量指标和对比奖励机制。最终形成的ADRA及其自适应变体ADRA+算法，在给定候选数据池的情况下显著提升了数据重构能力和检测效能。实验表明，我们的方法在检测预训练、后训练和蒸馏数据时持续优于现有MIA方案，相较原亚军方法平均提升10.7%。特别是在预训练检测的BookMIA任务中，ADRA+较Min-K%++提升18.8%；在后训练检测的AIME任务中提升7.6%。