HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

48 papers found

ResearchClawBench：端到端自主科學研究的基準
ResearchClawBench: A Benchmark for End-to-End Autonomous Scientific Research

May 28

ByWanghan Xu, Shuo Li, Tianlin Ye, Qinglong Cao, Yixin Chen, Hengjian Gao, Yiheng Wang, Qi Li, Kun Li, Sheng Xu, Shengdu Chai, Fangchen Yu, Xiangyu Zhao, Zhangrui Zhao, Weijie Ma, Zijie Guo, Haoyu Zhou, Haoxiang Yin, Lixue Cheng, Chaofan Hu, Haoxuan Li, Lu Mi, Xuxuan Xie, Yifan Zhou, Ruizhe Chen, Zhiwang Zhou, Xingjian Guo, Yuhao Zhou, Xuming He, Shengyuan Xu, Xinyu Gu, Jiamin Wu, Mianxin Liu, Chunfeng Song, Fenghua Ling, Dongzhan Zhou, Shixiang Tang, Yuqiang Li, Mao Su, Peng Ye, Siqi Sun, Bin Wang, Xue Yang, Zhenfei Yin, Tianfan Fu, Guangtao Zhai, Wanli Ouyang, Bo Zhang, Lei Bai, Wenlong Zhang

AI編碼代理在科學工作中日益普及，但其端到端的自主研究能力仍難以驗證。我們推出了ResearchClawBench，這是一個橫跨10個科學領域、包含40項任務的自主科學研究能力評估基準。每項任務均基於真實已發表論文，提供相關文獻與原始數據，並在評估期間隱藏目標論文。專家精心策劃的多模態評分標準將目標科學成果拆解為加權標準，既能評估目標論文層級的「再發現」效果，又為「新發現」保留空間。我們透過統一的協議評估了七個自主研究（auto-research）代理，並通過輕量級ResearchHarness評估了十七個原生LLM。當前系統距離可靠的再發現仍有很大差距：最強的自主代理Claude Code平均得分為21.5，最強的ResearchHarness LLM Claude-Opus-4.7平均得分為20.7，而LLM前沿平均水平僅為26.5。誤差分析表明，失敗主要集中在實驗協議不匹配、證據不匹配以及缺失科學核心。ResearchClawBench為衡量自主科學研究的進展提供了一個可複現的評估前沿。

想像感知標記增強多模態語言模型中的空間推理
Imaginative Perception Tokens Enhance Spatial Reasoning in Multimodal Language Models

Jun 3

ByMahtab Bigverdi, Linjie Li, Weikai Huang, Yiming Liu, Jaemin Cho, Jieyu Zhang, Tuhin Kundu, Chris Dangjoo Kim, Zelun Luo, Linda Shapiro, Ranjay Krishna

視覺語言模型（VLM）在許多任務中表現優異，但當關鍵資訊無法直接觀測時，仍難以處理空間推理問題。這類問題往往需要想像感知：從未見過的視角推斷所見景物、追蹤穿過遮蔽區域的路徑、或將零散觀測整合為連貫的空間表徵。我們提出「想像感知標記」（IPT），這是一種中介性的感知表徵，能具體呈現 VLM 在替代空間配置下可能感知到的內容，同時保持與觀測輸入一致。為探究此能力，我們設計了三項任務：視角推論（PET）、路徑追蹤（PT）與多視角計數（MVC），並建構約 20,000 筆範例的資料集，包含標準答案的想像表徵、答案與評估基準。以統一 VLM 架構 BAGEL 為骨幹，IPT 監督訊號持續改善空間推理表現，且常優於文字思維鍵訓練，即使在推理階段不產生影像亦然。在 MVC 任務中，IPT 提升準確率 3.4%，並在 PT 任務上達到與強封閉源模型相當的競爭力。我們進一步發現，結合 IPT 與純標籤監督能帶來額外增益，而文字思維鍵卻可能大幅降低效能，這顯示在強迫透過語言進行空間計算時存在模態不匹配。整體而言，IPT 為推理未觀測空間結構提供了具原則性的監督訊號，不僅提升泛化能力，也能產出可解釋的中間表徵。

你的解嵌入矩陣其實是文本嵌入的特徵透鏡
Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

Jun 5

BySonghao Wu, Zhongxin Chen, Yuxuan Liu, Heng Cui, Cong Li, Rui Yan

大型语言模型在各类下游任务中展现出令人瞩目的零样本能力。然而，作为现成的嵌入模型使用时，它们仍存在局限，导致在大规模文本嵌入基准测试中表现欠佳。本文中，我们识别出这一缺陷的潜在成因。我们的动机源于一个意外发现：当文本嵌入投影到词汇空间时，往往会与高频但信息量有限的词汇标记趋于一致。我们认为，这种对高频标记的过度表达抑制了模型捕捉细微语义的能力。为解决这一问题，我们提出EmbedFilter——一种简单的线性变换方法，旨在直接优化从大语言模型中提取的文本嵌入。具体而言，我们发现大语言模型内部的解嵌入矩阵编码了一个潜在空间，该空间主动将这些高频标记写入嵌入空间。通过过滤这一子空间，EmbedFilter能够抑制高频标记的影响，从而增强语义表征。作为一项引人注目的副产品，这实现了固有的降维特性，可降低索引存储成本、加速检索过程，同时完整保留优化后的嵌入质量。我们在多个大语言模型主干上的实验表明，即使嵌入维度显著降低，配备EmbedFilter的模型仍能取得更优的零样本下游性能。我们希望这些发现能为基于大语言模型的表征机制提供更深入的理解，并启发更严谨的文本嵌入训练设计。我们的代码已开源，可在 https://github.com/CentreChen/EmbFilter 获取。

SoCRATES：邁向跨領域與社會認知變異下主動式LLM調解的可靠自動評估
SoCRATES: Towards Reliable Automated Evaluation of Proactive LLM Mediation across Domains and Socio-cognitive Variations

Jun 4

ByTaewon Yun, Hyeonseong Park, Jeonghwan Choi, Hayoon Park, Yeeun Choi, Hwanjun Song

評估LLM調解員仍具挑戰性，因為調解過程是根據爭議雙方不斷變化的情緒、意圖和情境而即時展開的動態軌跡。現有的測試平台依賴少數專家撰寫的領域，主要變化在於策略立場，並對每個主題的每一輪對話進行評分，從而引入與主題無關的雜訊。我們提出SoCRATES，一個用於在真實且多領域測試平台中評估主動式LLM調解員的基準測試。它透過一個涵蓋八個領域的智能代理管線，從真實衝突中構建場景，探測五個社會認知適應軸（策略立場、參與者組成、歷史長度、情緒反應性和文化身份），並僅針對推進每個主題的對話輪次，透過主題局部化評估器進行評分。該評估器與人類專家的共識度達到0.82，是每輪基線的兩倍以上。在對八個前沿LLM進行基準測試時，我們發現即使是最強的調解員，在多元且真實的測試平台中，也只能縮小約三分之一的未調解共識差距，且表現因社會認知軸而差異顯著，這凸顯了進步在於對多樣條件的社會適應能力。

GENEB：為何基因組模型難以比較
GENEB: Why Genomic Models Are Hard to Compare

Jun 3

ByDaria Ledneva, Mikhail Nuridinov, Denis Kuznetsov

基因組基礎模型的進展難以評估，原因在於基準測試零散、評估協議不相容以及任務特定的報告方式。因此，不同模型之間關於優越性或通用性的宣稱往往無法直接比較。我們引入GENEB，這是一個大規模的診斷基準測試，在統一的基於探測的協議下（包含少樣本情境），評估40個基因組基礎模型在橫跨13個功能類別的100項任務中的凍結表示。GENEB能夠在明確揭示任務層級取捨的同時，對模型規模、架構、分詞方式及預訓練資料進行受控比較。我們的分析顯示，整體排行榜並不穩定：模型排名在不同任務類別間劇烈變化，規模帶來的提升僅為有限且不一致，而架構與預訓練的對齊往往比參數數量更為關鍵。這些結果凸顯了當前評估實務的限制，並將GENEB定位為基因組機器學習中，用於原則性比較與類別感知模型選擇的參考框架。

MMAE：一個大規模多任務音頻編輯基準
MMAE: A Massive Multitask Audio Editing Benchmark

Jun 5

ByZiyang Ma, Ruiqi Yan, Ruiyang Xu, Jie Fang, Zhikang Niu, Yi-Wen Chao, Wenming Tu, Tianrui Wang, Auden, Qi Chen, Wenxi Chen, Jiaying Chi, Yanru Huo, Zixuan Jiang, Xiquan Li, Yalin Li, Junxi Liu, Minghao Liu, Binghao Qiang, Yijia Shan, Zheshu Song, Tian Tan, Zixiang Wang, Zeyu Xie, Zhifei Xie, Xiaoyu Xing, Qixiang Xu, Chen Yang, Guanrou Yang, Shan Yang, Yifan Yang, Steve Yves, Haotian Zhang, Haina Zhu, Kai Yu, Liefeng Bo, Eng-Siong Chng, Xie Chen

我們介紹MMAE——大規模多任務音訊編輯基準，這是首個專為通用指令式音訊編輯設計的綜合評估測試平台。受智慧創作趨勢推動，互動式編輯已從視覺領域（如圖像領域的Nano-banana 2模型和影片領域的Gemini-Omni模型）快速擴展到音訊領域。然而，當前的評估基礎設施嚴重滯後，仍然高度碎片化，局限於特定子領域或基本操作。與現有範圍有限的基準不同，MMAE擴展到廣泛的真實場景，涵蓋7種不同的音訊模態，包括聲音、語音、音樂及其混合。此外，我們建立了一個全面的分類體系，跨越6級任務複雜度（從基本修改到多跳推理和多輪編輯）、2級粒度以及8種不同的操作類型。透過人機協作精心策劃，MMAE包含2,000個高保真樣本，並配以開創性的基於評分標準的評估框架。透過將自由形式任務分解為17,741個可驗證的標準，這種穩健的基於評分標準的範式能夠對指令遵循和上下文一致性進行精確的多維評估。我們對領先模型進行的廣泛評估顯示，當前系統遠未實現可靠的編輯。值得注意的是，精確匹配率（EMR）始終低於5%，在複雜的混合模態任務中更是絕對降至0%，暴露了精確執行和結構穩健性的關鍵瓶頸。我們希望MMAE能夠成為智慧創作社群未來進步的催化劑，提供清晰的診斷路線圖，並為下一代音訊編輯系統建立標準化、持久的評估範式。

AnchorWorld：具身自我中心世界模擬 —— 基於視角的演化定制
AnchorWorld: Embodied Egocentric World Simulation with View-based Evolution Customization

Jun 5

ByYu Li, Menghan Xia, Gongye Liu, Xintao Wang, Conglang Zhang, Lei Ke, Yuxuan Lin, Ruihang Chu, Pengfei Wan, Kun Gai, Yujiu Yang

尽管交互式世界建模作为一个关键的前沿领域，其在实际场景所需的多功能可控性方面仍未得到充分探索。为弥补这一不足，我们提出了AnchorWorld框架，该框架通过增强交互完整性和灵活的世界定制机制，推进了自我中心模拟的发展。首先，我们将3D人体运动作为主要的交互模态。为补充自我中心视角中不可见或被截断的身体部位，我们引入了一种辅助训练监督机制，该机制整合了与智能体第一人称感知系统解耦的外部视角。这使得模型能够观察智能体相对于环境的全身定位，从而促进人-世界交互中更稳健的空间定位。此外，我们提出了一种简单而有效的机制，用于定制自我演化的世界。这是通过在统一的世界坐标系内定义锚定视角，并结合描述局部场景动态演化的文本描述来实现的。实验结果表明，AnchorWorld显著优于最先进的基线方法，而消融研究验证了我们关键设计的有效性。值得注意的是，我们的定制方案展现出令人满意的时空几何一致性，并严格遵循预定的演化动态。

機器人需要的遠不止VLA與世界模型
Robots Need More than VLA and World Models

Jun 4

ByElis Karcini, Faisal Mehrban, Quang Nguyen, Mac Schwager, Arash Ajoudani, Cesar Cadena, Jan Peters, Marco Hutter, Haitham Bou-Ammar

通用機器人智慧通常被視為一種策略規模化的問題：收集更多機器人示範數據、訓練更大規模的視覺-語言-行動（VLA）模型，並期望獲得更廣泛的泛化能力。在這篇立場論文中，我們認為此框架並不完整。核心瓶頸不僅在於策略學習，更在於缺乏將世界豐富的非結構化行為數據轉化為具體機器人監督訊號的機制。人類動作、網路影片、模擬推演與互動示範中蘊含了大量關於任務、目標、接觸、失敗及物理限制的資訊，然而這些資訊大多無法直接被機器人策略使用，因為它們缺少具身特定的動作標籤、任務語義及獎勵結構。我們指出下一代機器人系統所需的核心缺失組件：用於自動標註非結構化行為的數據介面、將人類動作重新對應至機器人行動的具身介面、基於物理模型的三維推理世界模型介面，以及從影片與語言推斷任務進展與成功的獎勵介面。我們回顧了機器人基礎模型、跨具身數據集、從影片中學習、世界模型及獎勵建模等領域的最新進展，並提出一套研究議程，旨在建構不僅能從機器人示範中學習，更能從更廣泛的物理世界中學習的機器人系統。

通過分解視覺代理的直接三維感知物體插入
Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

Jun 4

ByJingbo Gong, Yikai Wang, Yushi Lan, Yuhao Wan, Ziheng Ouyang, Rui Zhao, Ming-Ming Cheng, Qibin Hou, Chen Change Loy

對象插入旨在將參考對象無縫合成至背景圖像的指定區域。近期基於擴散模型的方法雖能實現高視覺品質，但將插入簡化為單純的2D影像修復任務，缺乏對物體3D姿態的明確控制，限制了其實用性。我們提出DIRECT（用於參考合成與目標整合的分解式注入）框架，這是一個新穎的系統，能將互動式姿態操作與高保真2D影像生成相結合，實現姿態可控的對象插入。本方法將插入條件分解為三個互補組成部分：從參考對象擷取視覺細節的外觀引導、根據使用者調整的3D代理生成的幾何引導，以及來自目標背景的上下文引導。透過獨立路徑注入這些條件，DIRECT避免了特徵混雜，同時保留參考外觀、遵循使用者指定的姿態，並使對象適應目標場景。我們還引入自動化數據構建流程，以提升訓練數據的多樣性與品質。實驗結果顯示，DIRECT在幾何可控性與視覺品質上均優於先前方法。

OpenSkill：大語言模型智能體的開放世界自我進化
OpenSkill: Open-World Self-Evolution for LLM Agents

Jun 4

ByZhiling Yan, Dingjie Song, Hanrong Zhang, Wei Liang, Yuxuan Zhang, Yutong Dai, Lifang He, Philip S. Yu, Ran Xu, Xiang Li, Lichao Sun

自我演化智能體需要在部署後進行適應，但現有方法假設存在可用的學習循環，例如精心挑選的技能、成功軌跡或驗證信號。真實的開放世界部署可能不具備這些條件，僅提供一個任務提示。在本研究中，我們探索開放世界自我演化——智能體必須從零開始建構其技能與自身的驗證信號，僅依賴開放世界的資源，而無目標任務的監督。我們提出 OpenSkill 框架，用以啟動此循環：它從文件、程式碼倉庫與網絡中獲取紮實的知識與驗證錨點，將其綜合為可遷移的技能，然後根據這些錨點（而非目標答案）自建虛擬任務，並在該任務中對技能進行精煉。如此一來，開放世界既提供待學習的知識，也提供獨立於監督的練習環境，而目標任務的監督則保留給最終評估。在三項基準測試與兩個目標智能體上，OpenSkill 在滿足無監督限制的同時，達成了最佳自動通過率。分析顯示，其技能可在不同模型間遷移，無需針對特定模型進行調整；且其自建驗證器在從未存取真實結果的情況下，仍能與真實結果保持一致。

當工具失效時：大語言模型代理中動態重規劃與異常恢復的基準測試
When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

Jun 4

ByDongsheng Zhu, Xuchen Ma, Yucheng Shen, Xiang Li, Yukun Zhao, Shuaiqiang Wang, Lingyong Yan, Dawei Yin

現有的基準測試在評估大型語言模型的工具集成推理（TIR）時，大多聚焦於理想化的「順暢路徑」，而忽略了實際世界中工具可能發生的故障。我們提出 ToolMaze，一個專門用於評估 TIR 智能體在動態路徑發現與錯誤恢復能力的基準測試。為了將系統性重新規劃與盲目試誤區分開來，ToolMaze 採用二維設計：基於有向無環圖（DAG）的拓撲複雜度，以及一個 2×2 的工具擾動分類（顯式/隱式、暫時性/永久性）。評估結果顯示，擾動幾乎對所有模型都造成性能下降，其中隱式語義故障導致的最嚴重下降尤為明顯。由於模型對受損輸出存在系統性的過度信任，在這些情境下擾動恢復率（PRR）驟降約 37%，而複雜拓撲結構則使智能體陷入無效的試誤循環。關鍵在於，智能體的容錯能力隨模型規模提升的速度，比基本任務執行慢了約 3.66 倍，這凸顯了動態重新規劃是一個獨立的瓶頸，無法單純透過模型擴展或提示工程來解決。資料與程式碼已公開於 https://github.com/Zhudongsheng75/ToolMaze。

觀看、記憶、推理：基於MLLMs的人類視角影片理解
Watch, Remember, Reason: Human-View Video Understanding with MLLMs

Jun 5

ByJiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang

多模態大語言模型（MLLMs）正迅速改變影片理解領域，研究範疇從短片擴展至長篇、多模態且知識密集的影片場景。這些場景要求模型在有限計算資源下，處理稀疏證據、長程依賴、多模態對齊以及可靠的推理。本研究提出一個以人類視角為核心的基於LLM的影片理解觀點，並圍繞三項功能能力組織：觀看、記憶與推理。此觀點不將影片任務視為孤立的基準測試，而是提供一個統一的架構，用以分析影片MLLMs如何獲取證據、保存上下文，以及產出立足於證據的輸出。我們引入一個表徵方式，透過感知表徵、記憶狀態、推理軌跡與最終預測來描述影片理解系統。基於此表徵，我們指出在時空感知、高效長影片處理、記憶建模、串流理解與忠實推理等方面的挑戰。代表性方法依其在影片MLLM系統中的角色進行組織。觀看涵蓋細粒度、全面性、視聽與高效感知。記憶包括離線與串流記憶，而推理則涵蓋純文字推理與結合影片的思考。我們進一步探討應用領域，例如第一人稱視角、運動、教學、醫療與敘事影片，並涵蓋跨任務類型、監督格式、模態與能力維度的訓練資料集與評估基準。最後，我們概述了可擴展、具記憶意識且立足證據的影片智慧所面臨的開放問題與未來方向。相關研究將持續於 https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding 追蹤更新。

SubtleMemory：一個用於長時程AI代理中細粒度關係記憶區分的基準
SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

Jun 4

ByWenxuan Wang, Haoyu Sun, Fukuan Hou, Mingyang Song, Weinan Zhang, Yu Cheng, Yang Yang

持久性AI助手（例如OpenClaw）在長期互動中會累積大量彼此關聯的記憶。隨著記憶增長，這些記憶可能相互強化、因情境而分化，甚至直接產生衝突，使得正確的輔助行為取決於記憶間的關係，而非單純的孤立回憶。現有的長期記憶基準測試很少探討代理人在下游任務中如何保存並運用此類關係。為填補此缺口，我們提出SubtleMemory——一個針對長期運行AI代理中細粒度關係記憶辨別的基準測試。SubtleMemory構建了關係控制的潛在語義偽影，其變體可體現互補、細微或矛盾的關係，並將其嵌入真實的使用者-代理人歷史記錄中，要求代理人在後續查詢與指令中恢復分散的關係結構。該基準測試涵蓋10段長歷史記錄中的1,522個評估實例，以1,090組關係控制的記憶變體集為基礎，並橫跨與使用者相關及非相關的查詢。我們評估了六個獨立記憶系統、兩個內建記憶模組的Claw風格代理人，以及三個採用插件記憶模組的Claw風格代理人，結果顯示當前系統在細粒度關係記憶辨別上仍顯薄弱。我們進一步引入診斷協議，揭示了在記憶保留、檢索與下游推理階段中不同的能力特徵。

UnpredictaBench：評估大型語言模型分布隨機性的基準測試
UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Jun 4

ByAmirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West

我們提出UnpredictaBench，這項評測旨在檢驗大型語言模型（LLM）捕捉真實潛在分佈的能力。隨著LLM日益被用作其他實體的替代（例如，在經濟模擬中替代人類），許多模型傾向於收斂到單一合理答案的現象，意味著它們未能捕捉真實系統的不可預測性。近期針對提升輸出多樣性的研究在此情境下仍顯不足：模擬需要的樣本必須校準到目標分佈，而非僅僅是變化的輸出。UnpredictaBench將此問題簡化為基礎版本：從個別目標分佈中抽取結果，包括標準統計分佈、隨機程式產生的分佈，以及描述隨機過程的自然語言場景。我們引入了448道此類問題，並搭配KS@N這項通用評量指標，透過柯爾莫哥洛夫-斯米爾諾夫統計檢定，量化模型輸出近似黑箱目標分佈的能力。此指標衡量的是在樣本數N下，我們無法拒絕模型樣本與真實樣本來自相同分佈的比率，N越大表示難度越高。在開放與專有模型上的測試結果顯示，分佈能力存在極大差異。例如，當模型生成樣本數為100時（KS@100，我們的標準指標），得分範圍從接近0到超過20%。沒有任何模型能在KS@100上達到40%以上，顯示分佈取樣作為一項能力仍有顯著進步空間。雖然加入推理步驟能略微提升分數，但我們發現此問題並無立即解決方案。UnpredictaBench證明，即便是簡單的分佈模擬仍具挑戰性，這使其成為將LLM用作複雜系統替代品時的必要第一步。

基於反事實鏈與因果圖的大型語言模型可解釋性
LLM Explainability with Counterfactual Chains and Causal Graphs

Jun 4

ByNirit Nussbaum-Hoffer, Nitay Calderon, Liat Ein-Dor, Roi Reichart

因果圖提供了一種高階語言，有助於使機制透明化。近期研究利用大型語言模型來還原外部世界過程的因果圖。然而，在本論文中，我們採用因果圖來模擬大型語言模型本身的推論過程，讓利害關係人得以清楚了解模型如何感知與組織高階概念以產出預測。我們提出一個四階段方法來建構此類圖形。給定一個目標大型語言模型與一組文字範例，我們的方法能發掘具有類別區辨性、可被人理解的概念，並將每個輸入映射至模型所感知的概念狀態。接著，我們引入一項受MCMC啟發的反事實增強程序，透過一系列反事實鏈條來擴充稀疏的觀測數據。這使得搭配σ-CG進行穩定因果發現成為可能，從而產出具資訊量且可解釋的圖形。我們將此方法應用於三個大型語言模型，涵蓋疾病診斷、情感分析以及「大型語言模型作為評審」的分類任務。我們評估所學圖形的預測保真度與結構穩定性，並針對受MCMC啟發的增強程序評估其收斂性與下游應用效益。結果顯示，所發現的因果圖能捕捉與大型語言模型推理一致的有意義依賴關係。總而言之，本論文為大型語言模型的概念層級可解釋性奠定了基礎。

藉由想像力思考：利用世界模拟器進行具身視覺空間推理
Thinking with Imagination: Agentic Visual Spatial Reasoning with World Simulators

Jun 4

ByChenming Zhu, Jingli Lin, Yilin Long, Peizhou Cao, Tai Wang, Jiangmiao Pang, Xihui Liu

雖然視覺語言模型（VLM）已展現出強大的視覺推理能力，但其空間推理能力仍高度受限於可觀察影像及以文字為導向的思維鏈。當僅有有限的自我中心觀察時，這些模型往往難以推論未觀測到的佈局、維持跨視角的一致性，以及從替代視角進行推理。在本研究中，我們將此問題視為「透過想像進行思考」：亦即讓視覺語言模型在推理過程中，藉由與世界模擬器互動，主動獲取想像中的視覺證據。我們提出Astra，一種具備代理能力的空間推理框架，賦予視覺語言模型動作條件化的視覺想像能力。具體而言，Astra結合了Astra-VL（一種經強化學習訓練的視覺語言模型策略）與Astra-WM（一個基於Bagel的世界模擬器），後者可從上下文影像與自然語言中的相機運動生成新視角的觀察。為提供可靠的想像證據，Astra-WM透過視角一致性微調進行訓練，以提升不同視角間的位姿與內容一致性。在強化學習階段，我們提出一套以世界模擬器為核心的兩階段強化學習課程，以穩定工具使用的探索過程，並提升模型僅在想像觀察優於直接作答時才調用模擬器的能力。實驗結果表明，世界模擬器與代理策略兩者皆不可或缺：Astra-WM將經模擬器增強的Gemini-3-Flash在MMSI-Bench上的表現從45.1提升至49.5；而Astra-VL則將Qwen3-VL基礎模型在MMSI-Bench上的分數從29.8提升至38.8，在MindCube上從36.8提升至42.7。這些結果顯示，想像觀察能提供有用的空間證據，但要實現有效的世界模型增強推理，仍需學習在何時、何處以及如何進行想像。

UniSHARP: 通用清晰單目視圖合成
UniSHARP: Universal Sharp Monocular View Synthesis

Jun 5

ByMeixi Song, Dizhe Zhang, Hao Ren, Ruiyang Zhang, Bo Du, Ming-Hsuan Yang, Lu Qi

在本研究中，我们致力于扩展广泛使用的逼真视角合成方法SHARP，以实现覆盖从传统透视相机到广角、鱼眼及全景环境的连续相机系统的通用单目渲染。为突破SHARP基于针孔模型的特定假设，我们的核心思路是将各类图像统一对齐至全向潜在空间。由此提出UniSHARP方法，在特征空间和高斯空间中进行隐式对齐。具体而言，高斯基元沿射线与径向距离排列，构成基于射线的通用表征；同时，由类UniK3D编码器提取的二维语义特征与三维空间特征被联合解码，以生成完整的高斯点云。为全面评估本方法，我们构建了一个涵盖多种成像系统及多样化场景的基准数据集，并进一步按视场角（FoV）分层，以精细评估通用单目渲染任务性能。在该基准上的大量实验表明，UniSHARP效果显著，远超其他对比方法。项目页面详见：https://insta360-research-team.github.io/Unisharp-website/

LIMMT：少即是多於運動追蹤
LIMMT: Less is More for Motion Tracking

Jun 5

ByYu Guan, Zekun Qi, Chenghuai Lin, Xuchuan Chen, Dairu Liu, Wenyao Zhang, Jilong Wang, Xinqiang Yu, He Wang, Li Yi

我們認為，高品質的動作數據能在訓練初期引導追蹤策略走向更優的優化軌跡。在本研究中，我們提出了 LIMMT（少即是多的動作追蹤）。據我們所知，這是首個以數據為核心、針對基於物理的人形動作追蹤的研究。我們不僅僅是移除低品質與錯誤的片段，而是從三個維度定義動作數據品質：物理可行性、多樣性與複雜度。我們證明，即使僅使用 AMASS 資料集不到 3% 的數據進行訓練，其追蹤表現仍優於使用完整數據集訓練的結果。此外，我們還對從網路來源估計的動作捕捉數據進行了數據清理。廣泛的實驗與分析驗證了我們框架的有效性。

dots.tts 技術報告
dots.tts Technical Report

Jun 5

ByShi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu

我們提出 dots.tts，這是一個擁有 2B 參數的連續自回歸文本轉語音（TTS）基礎模型，在連續潛在空間中對語音進行建模。與現有的連續自回歸模型相比，我們的主要創新有三點：第一，我們訓練了一個具有多目標的 AudioVAE，以建立一個語義結構良好且有利於預測的連續語音空間；第二，我們在流匹配頭（flow-matching head）中使用全歷史條件，以保持長程一致性並減少生成過程中的漂移；第三，我們將無獎勵自我修正後訓練（reward-free self-corrective post-training）應用於流匹配頭，以進一步提升穩健性和聲學品質。在大規模多語言語料庫上訓練後，dots.tts 在 Seed-TTS-Eval 上取得了最佳平均表現，在中文、英文、中文困難測試集上分別達到 0.94%/1.30%/6.60% 的詞錯誤率（WER）以及 81.0/77.1/79.5 的相似度（SIM）分數。在其他基準測試中，dots.tts 也持續展現出開源領域的最佳性能，表現出強大的生成穩定性、語音複製能力及情感表現力。為實現高效推理，我們進一步應用了 CFG 感知的 MeanFlow 蒸餾（CFG-aware MeanFlow distillation），分別在輸出流式（output streaming）與雙流式（dual-streaming）模式下達成 85/54 毫秒的首包延遲，實現低延遲語音生成。為促進可重現研究與實際部署，我們以 Apache 2.0 授權釋出訓練與推理程式碼，以及預訓練、後訓練與 MeanFlow 蒸餾後的模型檢查點。

兩步驟物理：在視覺細化抹除運動先驗之前將其鎖定
Physics in 2-Steps: Locking Motion Priors Before Visual Refinement Erases Them

Jun 4

ByWoojung Han, Seil Kang, Youngjun Jun, Min-Hung Chen, Fu-En Yang, Seong Jae Hwang

图到视频扩散模型利用输入图像生成视觉惊艳的内容，但常常产生违背物理规律的运动。我们揭示了一个令人惊讶的发现：同一模型的2步生成结果往往比50步输出具有更好的物理一致性。通过频谱分析，我们将此归因于去噪过程中的相位侵蚀——相位从第2步到第50步显著下降约18%，而幅度保持相对稳定。基于这一洞察，我们提出PhaseLock，一种无需训练的框架，能够在整个去噪轨迹中保留少步推理的有效运动先验。PhaseLock并非依赖全步推理来保证物理一致性，而是仅从2步中提取运动先验，并通过潜在增量引导（Latent Delta Guidance）将其施加到高保真生成上。我们的方法有效缓解了相位退化，在多种模型上将物理一致性平均提升6.2个点，同时基本保持视觉保真度，且开销极小（时间1.06倍，内存1.02倍），并减少了对昂贵外部引导方法（约5倍时间）的依赖。

SIA：具備框架與權重更新的自我改進人工智慧
SIA: Self Improving AI with Harness & Weight Updates

May 26

ByPrannay Hebbar, Yogendra Manawat, Samuel Verboomen, Alesia Ivanova, Selvam Palanimalai, Kunal Bhatia, Vignesh Baskaran

人類是構建與改進AI的瓶頸。無論是模型本身，或是包裹模型的智能體，皆由人類編寫、調整與修正。能夠自行找出改進方法的AI，其長遠目標至今仍未達成。兩個大致互不相關的研究方向正試圖突破此瓶頸。「框架更新學派」讓元智能體改寫任務特定智能體的支架（其工具、提示詞、重試邏輯與搜尋程序），同時固定模型權重。「測試時訓練學派」則使用手寫的強化學習管線，根據任務回饋更新模型本身的權重，同時固定支架。這兩個領域各自獨立運作。我們提出SIA，一種自我改進循環，其中語言模型智能體（回饋智能體）同時更新任務特定智能體的支架與權重。我們在三個截然不同的領域進行評估：中國法律罪名分類、低階GPU核心最佳化，以及單細胞RNA去噪。在所有三項基準測試中，結合兩種槓桿的表現皆優於僅更新支架的迭代。在LawBench上提升56.6%，GPU核心執行時間減少91.9%，去噪效果相較初始基準提升502%。支架更新使模型具備智能體特性，塑造其搜尋與行動方式；而權重更新則建構出任何提示詞或支架都無法灌輸的領域直覺。

PaperFlow：跨每日論文串流的剖析、推薦與適應
PaperFlow: Profiling, Recommending, and Adapting Across Daily Paper Streams

Jun 5

ByFuqiang Wang, Song Tan, Zheng Guo, Jiaohao Fu, Xinglong Xu, Bihui Yu, Jie Dong, Zheng Sun, Siyuan Li, Jingxuan Wei, Cheng Tan

科學論文推薦通常被評估為在固定候選集上的靜態排序，然而實際的科學閱讀是一個每日進行的縱向過程，其中興趣會轉移，反饋會累積。我們提出 PaperFlow，一個將此過程組織為三個耦合階段的框架：個人檔案構建（Profiling），從異質冷啟動證據中構建並維護結構化且可檢視的學者輪廓；推薦（Recommending），在固定展示預算下通過多信號聚合對每個特定日期的論文流進行排序；以及適應（Adapting），從語義不同的反饋信號更新用戶狀態並建模跨日的興趣漂移。我們進一步定義了一個縱向的用戶-天基準，該基準在共享的時間信息邊界內固定了用戶、日期、候選池、可見輸入以及隱藏的模擬相關性標籤。該基準包含24個模擬研究用戶、50個每日論文流、1,200個用戶-天回合、20,727篇唯一論文，以及497,448個回合-論文記錄。我們還指定了一個盲法人工評估協議，以驗證自動指標與專家判斷之間的一致性。與五個科學推薦基線的實驗表明，PaperFlow 實現了最強的基於神諭的排序、與模擬閱讀選擇最高的行為一致性，以及最佳的盲法人工評估分數。

Socratic-SWE：經由軌跡派生代理技能之自我演化編碼代理
Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

Jun 5

ByChuan Xiao, Zhengbo Jiao, Shaobo Wang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang, Lin Qu

LLM驅動的軟體工程智能體已成為檢驗真實語言模型能力的核心測試平台，然而其訓練成效仍受限於高品質軟體工程任務的稀缺性。現有合成資料方法通常透過固定突變或缺陷注入程序產生任務，導致產生的任務分佈與智能體自身的弱點及訓練進展幾乎無關聯。我們提出Socratic-SWE，這是一個閉環式自我演化框架，可重複利用智能體歷史解題軌跡作為訓練訊號來源。不同於僅將軌跡視為獎勵計算的證據，Socratic-SWE 將其提煉為結構化的智能體技能，總結出反覆出現的失敗模式與有效修復策略。這些技能進而引導在真實程式庫中生成針對性修復任務。候選任務經過基於執行的驗證，並透過求解器梯度對齊獎勵進行評分，因此保留的任務既可驗證，又能有效提升求解器效能。更新後的求解器產生新的軌跡，使任務課程能在後續輪次中動態適應。在SWE-bench Verified、SWE-bench Lite、SWE-bench Pro及Terminal-Bench 2.0等基準測試中，Socratic-SWE在相同運算資源下持續優於自我演化基準方法，經過三次迭代後在SWE-bench Verified上達到50.40%的正確率。這些結果表明，解題軌跡可作為自我演化型軟體工程智能體的可擴展基礎。

HarnessForge：自适性代理系統中控御與策略的聯合演化
HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems

Jun 1

ByMingju Chen, Can Lv, Guibin Zhang, Heng Chang, Shiji Zhou

LLM agent 被日益期望能在需要不同執行典範的異質任務領域中運作。這對固定的 agent 系統構成挑戰，並促進了超越孤立元件更新的系統層級後設適應。雖然現有研究已調整外部 harness 或訓練底層推理策略，但全系統適應仍未被充分表徵。結構與執行之間的適應空間鮮少被明確化，且外部 harness 與內部推理器之間的相容性也未經聯合優化。我們提出 HarnessForge，一個用於演化 LLM agent 系統的後設適應框架。HarnessForge 將 agent 系統表述為一個 harness-策略配對，定義了一個穩定的適應空間，將 harness 層級的執行結構與策略層級的推理行為分離開來。接著透過故障導向的 harness 剪裁與 harness 條件化的策略對齊，執行 harness-策略共同演化。在跨五個不同領域的基準測試上的實驗顯示，HarnessForge 持續改善了 Qwen3-4B 和 Qwen3-8B 的基礎模型，超越了僅 harness 和僅策略的基線，相較最強基線提升了高達 12.0%，並取得了良好的展開效率權衡，證明了 harness-策略共同演化是有效的，且 harness 與推理策略之間的可執行相容性對於 agent 系統適應至關重要。程式碼可在 https://github.com/mingju-c/HarnessForge 取得。

Almieyar-Oryx-BloomBench：面向視覺語言模型認知啟發的雙語多模態評估基準
Almieyar-Oryx-BloomBench: A Bilingual Multimodal Benchmark for Cognitively Informed Evaluation of Vision-Language Models

Jun 4

ByMohammad Mahdi Abootorabi, Omid Ghahroodi, Anas Madkoor, Marzia Nouri, Doratossadat Dastgheib, Mohamed Hefeeda, Ehsaneddin Asgari

儘管視覺語言模型（VLM）進展迅速，該領域仍缺乏能嚴格診斷其真實推理能力、並為邁向類人多模態智慧提供有意義進展的基準測試。現有評估多聚焦於零散或無關聯的任務，掩蓋了關鍵的認知弱點，且難以提供有針對性的改進方向。為填補此缺口，我們提出BloomBench——Almieyar基準系列的一部分——這是首個以人類認知為基礎、雙語（英語-阿拉伯語）的多模態VLM基準測試。基於布魯姆分類學，BloomBench透過精心設計的圖像-問題-答案任務，系統性評估六個認知層級（記憶、理解、應用、分析、評鑑、創造）。藉由半自動化流程建構，並經分層混合品質保證協議驗證，確保其可擴展性、文化包容性及語言忠實度。利用此框架，我們對當前頂尖VLM進行全面研究，以診斷其認知特徵。分析結果揭示出明顯的認知不對稱性：雖然當前頂尖模型在語義理解方面達到高效能上限，但在事實回憶與創造性綜合方面卻表現不佳。這顯示目前通用的多模態能力掩蓋了特定認知層面的深層侷限。此外，我們的研究凸顯了阿拉伯語與英語之間的重大效能落差，揭露當前跨語言多模態推理的缺陷。這些發現為開發更具認知契合度與包容性的VLM奠定了基礎。該基準框架與資料集可於以下網址取得：https://github.com/qcri/Almieyar-Oryx-BloomBench。

SPACENUM：重新探討視覺語言模型中的空間數值理解
SPACENUM: Revisiting Spatial Numerical Understanding in VLMs

May 22

ByJianshu Zhang, Yijiang Li, Huifeixin Chen, Haoran Lu, Letian Xue, Bingyang Wang, Han Liu

視覺語言模型（Vision-Language Models, VLMs）正日益部署於具身環境中，在此類環境下，模型需產出如動作幅度與空間座標等數值輸出。儘管這些數字看似具有意義，但其是否真正植基於空間感知仍有待釐清。因此，本研究透過SpaceNum統一框架重新審視空間數值理解，該框架涵蓋兩種互補情境：數值作為空間探索中的動態轉換，以及數值作為空間推理中的靜態佈局。我們設計了Num2Space與Space2Num兩項雙向任務，用以評估VLM在視覺空間結構與語言數值表徵之間的映射能力。我們系統性地探究當前VLM是否真正理解空間情境中的數值意義。結果顯示，在動態轉換與靜態佈局中，模型大多未能將數值植基於空間含義，其表現常接近隨機猜測。透過錯誤分析、推理軌跡分析與控制干預，我們發現當前VLM高度依賴淺層空間線索，難以建立穩定的座標感知表徵，且無法從視覺觀測中抽象出結構化的空間佈局。我們進一步指出，顯式推理僅能帶來邊際效益，而微調則可部分改善空間數值理解，並能遷移至外部空間推理基準。

Stream3D-VLM：基於增量幾何先驗的線上3D空間理解
Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors

Jun 5

ByHanxun Yu, Xuan Qu, Lei Ke, Boqiang Zhang, Yuxin Wang, Jianke Zhu, Dong Yu

儘管3D場景理解技術有所進展，現有的3D大型多模態模型仍僅適用於離線設定，需完整的場景觀測或預先定義的影片片段。本文提出一種線上3D視覺-語言模型，能從串流影片中實現即時空間理解。我們的方法採用基於大型語言模型下一個詞元預測目標的自迴歸串流控制建模，以學習何時應回應，並運用輕量級的視覺-空間特徵整合模組，逐步將時間對齊的幾何先驗注入視覺流中。為減輕長上下文解碼的計算負擔，我們提出即插即用的幾何自適應體素壓縮模組，以實現高效的視覺詞元壓縮。針對串流3D語言資料匱乏的問題，我們進一步開發可擴展的資料生成流程，整理出超過100萬組線上空時3D問答對，並建立涵蓋29項任務的全面基準測試。大量實驗證明，我們的方法在線上和離線的3D空間理解、推理及定位任務中，均顯著優於專有模型與開源模型。專案頁面位於 https://stream3d-vlm.github.io/

3D視覺食譜：數據、學習範式與應用
A Cookbook of 3D Vision: Data, Learning Paradigms, and Application

Jun 2

ByHongyang Du, Zongxia Li, Dawei Liu, Runhao Li, Haoyuan Song, Qingyu Zhang, Yubo Wang, Jingcheng Ni, Shihang Gui, Congchao Dong, Tao Hu

三維視覺技術在多樣性日益增長的數據表示、學習範式與建模策略驅動下快速演進。然而，該領域仍因表示形式與基準測試的碎片化而難以建立效率、保真度與可擴展性方面的統整視角。本研究提出一套以數據為中心的三維視覺分類法，將幾何表示、數據集、學習框架與應用場景整合於單一概念圖譜中。我們首先分析三維數據的主要結構性表示——點雲、網格、體素與三維高斯——及其獲取流程。接著探討數據集設計、基準建構與監督機制如何推動近期進展，涵蓋二維監督三維學習、隱式神經表示及四維世界建模。透過此整合性視角，我們釐清表示形式、學習範式與下游任務（重建、生成與影片建模）之間的關聯，並針對效率與保真度平衡、多模態幾何基礎等新興趨勢提供統整觀點。

邁向檢索互動空間以實現自主式搜尋
Towards Retrieving Interaction Spaces for Agentic Search

Jun 5

ByShengyao Zhuang, Yuansheng Ni, Hengxin Fun, Jimmy Lin, Xueguang Ma

搜尋代理的檢索機制仍源自非代理式資訊檢索：檢索器對語料庫進行排序，代理則讀取一小組回傳的文件。近期提出的直接語料互動（DCI）研究顯示，代理可以改為透過 shell 工具（如 grep 與檔案讀取）與原始語料互動。但無限制的互動方式無法擴展：任何寬泛的 shell 指令都需掃描整個語料庫，且隨著語料規模增長，延遲會急遽惡化。我們認為，代理式搜尋中檢索的角色不僅是選出能放入 LLM 上下文視窗的文件，更是為了建構一個互動空間：一個代理能使用關聯工具探索的語料庫有界子集。這引申出兩項設計要求：該空間需由檢索提供邊界，且其中的物件應經過處理以利互動。作為概念驗證，我們提出 RISE（檢索互動空間，Retrieving Interaction SpacE）：使用 BM25 建構互動空間；同時在索引階段處理文件以支援 shell 風格的導覽。在 BrowseComp-Plus 上，RISE 搭配 gpt-5.4-mini 達到 78% 的準確率，與純 shell 的 DCI 基線相當，但每次查詢成本約僅四分之一。在 100 萬篇文件規模下，RISE-BM25 搭配 gpt-5.4-mini 達到 81% 準確率，而 DCI 搭配 gpt-5.4-nano 則因 33% 的實時執行失敗而降至 60%。

熵作為一種結構先驗：DiT信念空間上的對數屏障如何驅動音樂多樣性與發展
Entropy as a Structural Prior: How a Log-Barrier on DiT Belief Space Drives Musical Diversity and Development

Jun 5

ByZixi Li, Youzhen Li

基於置信度的損失加權通常在生成模型中會被避免，因為當模型以高置信度犯錯時會加速錯誤，但這個直覺在監督式擴散訓練中並不成立。我們引入了艾斯巴赫對數障礙，這是一種源自DiT輸出空間能量分佈熵的無參數權重：高熵會衰減梯度，而低熵則保留梯度。將此方法應用於Stable Audio 3 Medium在MusicCaps上的LoRA微調時，意外地產生了比未加權訓練更強的主題發展、更清晰的聲學區分以及更高的紋理多樣性，與模式坍塌完全相反。這是因為在監督式擴散中，梯度方向被鎖定於真實標籤，因此置信度僅會縮放步長；同時時間熵會降低平坦樣本的權重，同時保留高對比度的樣本。其結果是一種完全由前向傳播自然產生的在線、自我參照的數據課程，並附有已分析的噪聲級別動力學及可測試的預測。

CORE：對比反思實現推理能力快速提升
CORE: Contrastive Reflection Enables Rapid Improvements in Reasoning

May 27

ByLinas Nasvytis, Simon Jerome Han, Ben Prystawski, Satchel Grant, Noah D. Goodman, Judith E. Fan

語言模型可透過可驗證的獎勵來提升多種推理任務的表現。然而，無論是參數化方法（例如RLVR）或非參數化方法（例如提示詞優化），通常都需要數百個訓練樣本與數千次模型推演，使得這些方法在最理想的情況下成本高昂，在最糟的情況下甚至難以實行。為了解決此挑戰，我們提出對比反思（CORE），這是一種非參數化學習演算法，透過比較過去的推理蹤跡來產生洞見：簡短的自然語言描述，用以捕捉成功與不成功解題嘗試之間差異的推理策略與約束。在四個推理任務中，我們證明了CORE能比參數化方法（GRPO）及非參數化方法（GEPA、情境式RAG、MemRL）更快地實現改進，同時使用更少的推演次數。在固定推演預算下（僅使用少至五個訓練樣本），我們接著展示CORE能達到與各基線方法相當或更優的效能增益。最後，我們強調CORE在情境效率上也顯著優於非參數化基線，所需提示詞權杖更少，同時將學到的知識儲存為簡潔且可解釋的自然語言洞見。因此，我們的結果表明，將成功與不成功推理蹤跡之間的對比提煉為抽象且有用的洞見，能比權重更新、提示詞優化或直接重用儲存推理蹤跡提供一條更高效且可解釋的模型自我改進途徑。

當梯度碰撞時：針對LLM評判器的多目標提示優化的失效模式
When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges

May 25

ByParth Darshan, Abhishek Divekar

將LLM裁判定制於特定任務或領域時，通常需要同時基於多個評估標準優化其提示詞。文本梯度方法可以自動化單一裁判標準的優化，但其產出的是自然語言評論，而非數值向量。因此，多任務學習中的衝突解決工具（如PCGrad、MGDA）並不適用於多目標文本梯度設定。我們透過改變損失函數、梯度與優化器LLM之間共享跨任務資訊的程度，測試了五種文本梯度優化器的分解模式。在10種配置中有6種觀察到優化從未優於初始提示詞。當梯度LLM同時處理多個標準時，梯度特異性下降了59%（從9.0降至3.7）。此外，我們發現將個別任務指令簡單合併為單一提示詞會導致斯皮爾曼等級相關係數下降5.3%。這些結果揭示了兩種可區分的失效模式：優化階段的梯度稀釋與推論階段的指令干擾，兩者共同限制了利用文本反饋進行多目標裁判定制的設計空間。

利用分散式DAgger從豐富回饋中進行強化學習
Reinforcement Learning from Rich Feedback with Distributional DAgger

Jun 3

ByRishabh Agrawal, Jacob Fein-Ashley, Paria Rashidinejad

推理模型的發展進展迅速，但主流的可驗證獎勵強化學習（RLVR）方法仍出奇地狹隘：生成大量回應，並以單一位元（僅指示最終答案是否正確）為每個回應賦予獎勵。然而，許多情境提供豐富的回饋，包括執行軌跡、工具輸出、專家修正及模型自我評估。我們研究如何透過經典模仿學習演算法 DAgger 的分布變體來運用這類回饋，其中學習者能局部存取當前策略所造訪狀態的專家分布。這產生了一個簡單的前向交叉熵目標，該目標接受黑箱專家，並透過將未來專家-學生之間的分歧傳播回早期決策，來執行序列層級的豐富信用分配。我們證明，基於反向 KL 散度或 Jensen-Shannon 散度的先前自我蒸餾強化學習目標，無法保證策略的單調改進：即使專家獲得更高獎勵，這些更新仍可能增加選擇較差動作的機率。相比之下，我們證明前向交叉熵能實現策略的單調改進，並享有遺憾界的保證。我們進一步證明，我們的目標最佳化了教師加權成功可能性的下界，從而提升 Pass@N 指標。在實驗上，我們的方法 DistIL 在科學推理、程式碼撰寫及解決困難數學問題等多個領域中，均優於 RLVR 及基於自我蒸餾的強化學習基線。

壓縮蒸餾：用於高效知識蒸餾的推理軌跡壓縮
Compress-Distill: Reasoning Trace Compression for Efficient Knowledge Distillation

Jun 4

ByMaxime Griot, Paul Steven Scotti, Tanishq Mathew Abraham

推理模型会产生冗长的思维链轨迹，这些轨迹的蒸馏成本高昂，并促使学生模型输出冗长的内容。我们研究了在知识蒸馏前对这些轨迹进行事后压缩的方法。两个教师模型——Qwen3.5-397B-A17B 和 gpt-oss-120B——各自生成了约 283k 条正确轨迹；随后两个经过指令微调的模型将其压缩至原始字符长度的 8.6% 至 21.0%。在包含 48 次运行的主网格实验及七次 Qwen 教师截断消融实验中，压缩轨迹将训练 token 量降至原始水平的 12% 至 30%，训练速度提升 2.0 至 7.6 倍，推理输出长度缩短 3 至 19 倍（在较短的 gpt-oss 教师模型下缩减幅度较小）。然而，在所有规模和两个教师模型下，原始轨迹仍保持最高的下游准确率。一项长度匹配的原始轨迹截断消融实验表明，压缩并非仅仅得益于更小的 token 预算：模型压缩的轨迹通常优于或持平于朴素截断，尤其是在较小的学生模型上，同时保持更短的推理输出。总体而言，推理轨迹压缩提供了一种准确率与效率之间的权衡，而非免费的改进：学生模型保留了原始轨迹准确率的多达 96%，同时每 token 效率提升多达 18 倍；在 0.8B 规模下，采用 LoRA 时，压缩轨迹缩小了原始与压缩之间的差距，但并未超越原始轨迹。

LayerRoute：透過LoRA微調實現輸入條件自適應層跳躍以用於代理型語言模型
LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models

Jun 1

ByPrateek Kumar Sikdar

代理型語言模型系統在兩種結構迥異的步驟類型之間交替：結構化工具調用（簡短、確定性、低困惑度）與開放式規劃/推理步驟（冗長、複雜、高困惑度）。儘管存在這種異質性，現有推理系統對每個步驟均分配相同的計算量。我們提出 LayerRoute，這是一種輕量級適配器，能夠學習根據每個輸入選擇性地跳過 Transformer 區塊。LayerRoute 在 Qwen2.5-0.5B-Instruct 的 24 個 Transformer 區塊中各添加：(1) 每層路由器（約 897 個參數，Linear(896,1)），透過直通估計器輸出硬二值閘門；(2) 在 Q/K/V/O 注意力投影上的 LoRA 適配器（秩 8，約 108 萬參數）。主幹權重保持凍結。在代理型數據（Hermes、Glaive、GSM8K、Turing）上進行單次端到端訓練，並加入閘門正則化項，強制系統發現每個輸入類型可跳過的區塊。經過 3,000 步訓練（在 A100 40GB 上耗時 6.4 分鐘），LayerRoute 實現了 12.91% 的跳過差異：工具調用跳過 15.25% 的 FLOPs，而規劃步驟僅跳過 2.34%，總共僅使用 110 萬可訓練參數（佔 4.94 億主幹參數的 0.22%）。由於 LoRA 適配，品質較基礎模型有所提升，工具調用的困惑度變化為 -1.29，規劃步驟為 -1.30。

參數化社會認同注入與多樣化於輿論模擬
Parametric Social Identity Injection and Diversification in Public Opinion Simulation

Jun 1

ByHexi Wang, Yujia Zhou, Bangde Du, Qingyao Ai, Yiqun Liu

大语言模型（LLMs）近期被用作舆论模拟的合成代理，为成本高昂且进程缓慢的人工调查提供了有前景的替代方案。尽管具备可扩展性，当前基于LLM的模拟方法仍难以捕捉社会多样性，导致群体间差异扁平化，不同人口群体的回应同质化严重。我们将这一局限识别为LLM隐藏表征中的"多样性崩溃"现象——不同社会身份特征随网络层数加深而逐渐难以区分。基于该发现，我们提出参数化社会身份注入（PSII）框架，该通用方法将人口属性与价值取向的显式参数化表征直接注入LLM的中间隐藏状态。不同于基于提示的人格条件设定，PSII可在表征层面实现细粒度、可控的身份调节。在多个开源LLM上的世界价值观调查实验中，PSII显著提升了分布保真度与多样性，在降低与现实调查数据KL散度的同时增强了整体多样性。本研究为LLM代理的表征级控制提供了新视角，推动可扩展且具有多样性意识的舆论模拟发展。

以自主校正與語義評估邁向類人互動式語音辨識
Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

May 28

ByZixuan Jiang, Yanqiao Zhu, Peng Wang, Qinyuan Chen, Xinjian Zhao, Xipeng Qiu, Wupeng Wang, Zhifu Gao, Xiangang Li, Kai Yu, Xie Chen

自動語音辨識（ASR）是人機互動的核心組成部分，也是基於大型語言模型之助理與代理日益重要的前端技術。然而，目前多數ASR系統仍遵循單次通過範式，與人類溝通中透過迭代澄清與精煉來解決誤解的方式存在顯著落差。這種不匹配使得一旦發生關鍵語義錯誤便難以修正，同時詞元層級指標（如詞錯誤率WER或字元錯誤率CER）也無法充分反映此問題。為解決上述限制，我們將互動式語音辨識（Interactive ASR）形式化為一項多輪精煉任務，並提出Agentic ASR——一個結合單次通過ASR前端與語義校正、意圖路由及基於推理之編輯的閉環架構。我們進一步引入句子層級語義錯誤率（Sentence-level Semantic Error Rate, S²ER），這是一項基於大型語言模型的語義評估指標，同時搭配互動模擬系統（Interactive Simulation System），以實現可擴展且可重現的基準測試。在多語言、命名實體密集及語碼切換基準上的實驗顯示，迭代互動能持續降低語義錯誤，且S²ER的降幅遠大於傳統詞元層級指標的改進幅度。人機對齊研究與消融實驗進一步驗證了語義評判器的可靠性及所提架構的強健性。程式碼請參閱：https://interactiveasr.github.io/，即時展示請見：https://i-asr.sjtuxlance.com/

蒸餾博弈：適應性攻擊與高效防禦
The Distillation Game: Adaptive Attacks & Efficient Defenses

May 29

ByYoussef Allouah, Mahdi Haghifam, Sanmi Koyejo, Reza Shokri

蒸馏攻擊為模型提供者帶來部署上的取捨：那些使模型更具實用價值的輸出，同時也更容易被模仿。我們透過一個受效用約束的教師模型與自適應學生模型之間的極小化極大（Minimax）賽局來研究此取捨。此框架產生可處理的單向回應規則：一種自適應評估規則，讓學生模型重新加權高價值樣本，以及一個教師端防禦模板，用以抑制最利於蒸餾的輸出。透過樣本價值的廉價代理，我們推導出專家乘積（Product-of-Experts, PoE）——一種僅需前向傳遞的簡易防禦方法，在生成過程中將教師模型與代理學生模型結合。實驗上，自適應評估揭示了被動與自適應之間的重大差距：針對最先進的防禦方法，自適應學生在GSM8K與MATH基準上恢復的能力遠超被動評估所顯示的結果。在這種更嚴格的評估下，昂貴防禦方法與PoE之間明顯的魯棒性差距大幅縮小，而PoE仍保持更低的成本與更高品質的推理鏈。整體而言，我們的結果表明，強蒸餾仍難以阻止，且對抗蒸餾的進展應以自適應學生而非被動學生為評判標準。我們的程式碼已公開於：https://github.com/ysfalh/distillation-game。

結合串流力控制的串流影片生成
Streaming Video Generation with Streaming Force Control

Jun 5

ByHanhui Wang, Yiming Xie, Haiwen Feng, Zhaoyang Lv, Shenlong Wang, Huaizu Jiang

我們提出StreamForce，這是一個流式影片生成框架，能夠透過連續力輸入實現基於物理的控制。不同於過去針對不同力類型訓練獨立模型、假設固定力或依賴非因果處理的影片模型，StreamForce是一個因果統一的模型，能即時且連貫地回應局部與全域的時變力。為達成此目標，我們設計了一個統一的力表示作為控制訊號，並開發了一套用於力可控影片生成的蒸餾流程。我們的模型結合了自回歸效率與力響應能力，維持穩定的光度與動態真實性。StreamForce在單一GPU上最高可達16.6 FPS，在力的遵循度與動作真實性方面均達到最先進的效能。專案網站：https://neu-vi.github.io/StreamForce/

ECI_{sem}：用於評估困難負樣本的語義殘差有效對比信息
ECI_{sem}: Semantic Residual Effective Contrastive Information for Evaluating Hard Negatives

Jun 5

ByAarush Sinha, Rahul Seetharaman, Aman Bansal

密集检索中的难负样本源选择通常仅在微调和下游评估之后才能确定。我们提出ECI_{sem}，一种有效对比信息（ECI）的语义残差变体，该方法利用冻结的目标编码器嵌入对候选负样本源进行排序。ECI_{sem}无需训练，但并非无需标签：每个评分样本都需要一个查询、一个标注的正样本以及一个显式的候选负样本。ECI_{sem}根据目标一致性、语义局部性、词汇残差性以及对数行列式多样性目标，构建了一个加权残差信息矩阵。在MS MARCO负样本源上，族内ECI_{sem}将大语言模型（LLM）负样本在非混合源中排名最高，并将Dense+LLM在混合源中排名最高，这与DistilBERT、E5-base和Contriever在最强聚合BEIR迁移结果上的表现一致。受控消融实验表明，这种对齐依赖于使用目标编码器家族，而额外消融实验则显示其在样本量、温度、分词器和IDF语料扰动下保持稳定。理论部分给出了与损失减少的局部线性化联系，而实证研究则将下游评估作为最终检验。

GitHub儲存庫中AI使用特徵與演變之實證研究：來自程式碼註解的證據
Empirical Study on the Characteristics and Evolution of AI-usage in GitHub Repositories: Evidence from Code Comments

Jun 5

ByAbdullah Al Mujahid, Preetha Chatterjee, Mia Mohammad Imran

开发者越来越多地在日常软件工作流中使用ChatGPT、Copilot和Claude等AI工具，但以往的研究往往孤立评估大语言模型的输出，而非考察开发者如何在真实项目中对其进行适配。我们分析了35,361条明确引用AI使用的GitHub代码评论及其关联代码块。首先对500条独特的评论及代码块进行开放式编码，归纳出AI辅助开发活动的分类体系，随后利用两个基于LLM的分类器对完整数据集进行标注，并通过Dawid-Skene期望最大化算法聚合预测结果。同时，我们还分析了12,996条后续提交信息，以研究AI辅助代码在引入后的演变过程，并考察了从2022年12月至2026年3月的时间趋势。结果表明，开发者主要使用LLM进行代码实现，其次是代码增强、调试、文档编写和测试。后续提交中频繁出现重构与清理、功能整合与扩展以及错误修复，表明人类在适配AI辅助代码时持续进行监督。随时间推移，引用AI的评论从直接的代码生成转向知识性与概念性支持以及代码增强。这些发现表明，AI工具不仅嵌入为代码生成辅助手段，更成为协作支持机制——其输出会由开发者持续进行优化、扩展与修正。

透過費雪資訊衡量模型穩健性：頻譜界限、理論保證與實用演算法
Measuring Model Robustness via Fisher Information: Spectral Bounds, Theoretical Guarantees, and Practical Algorithms

Jun 3

ByChong Zhang, Xiang Li, Jia Wang, Qiufeng Wang, Xiaobo Jin

深度神经网络的鲁棒性对于安全关键型部署至关重要，然而现有评估方法往往依赖特定攻击方式且缺乏可解释性。本文提出一种基于费雪信息矩阵谱范数的原则性、攻击无关的鲁棒性度量，该度量可量化模型输出分布在输入扰动下的最坏情况敏感度。理论上，我们确立了费雪信息矩阵等于输入雅可比矩阵方差的关系，并推导了VGG、ResNet、DenseNet及Transformer等常见架构的闭式谱界，首次提供了理论上的鲁棒性排序。为实现可扩展评估，我们开发了包括幂迭代和基于哈钦森估计的高效算法，同时支持白盒与黑盒场景。在CIFAR、ImageNet、医学图像等多个数据集及多种架构上的广泛实验表明，我们的度量与对抗脆弱性之间存在强相关性。该框架可作为对抗攻击评估的补充性可解释诊断工具，揭示架构敏感性特征，并指导更鲁棒模型的设计。代码已开源：https://github.com/franz-chang/SRP/。

透過在線策略蒸餾實現數據高效的自回歸到擴散語言模型
Data-Efficient Autoregressive-to-Diffusion Language Models via On-Policy Distillation

Jun 4

ByXingyu Su, Jacob Helwig, Shubham Parashar, Atharv Chagi, Lakshmi Jotsna, Degui Zhi, James Caverlee, Dileep Kalathil, Shuiwang Ji

我們研究自回歸模型（ARLM）轉換為擴散語言模型（DLM）的過程。不同於從頭開始預訓練，先前的工作將 ARLM 中的因果注意力替換為雙向注意力，然後使用 DLM 目標來訓練生成的模型。然而，這些方法會引發兩種分布偏移。首先，從下一個詞預測目標轉換為 DLM 目標，可能會丟棄 ARLM 在訓練過程中獲得的知識。其次，標準的 DLM 存在訓練與推論不匹配的問題，因為訓練損失是針對隨機遮罩序列定義的，而非推論時遇到的、由基於信心的解碼所產生的軌跡。為了解決這兩個挑戰，我們引入了一種在線策略擴散語言模型（OPDLM），其中採用在線策略蒸餾（OPD）來實現 ARLM 到 DLM 的轉換。具體而言，OPDLM 通過自我在線策略蒸餾進行訓練：學生模型（一個具有雙向注意力的 ARLM）生成自己的軌跡，而教師模型（原始凍結的 ARLM）則通過在這些軌跡上提供目標 logits 來蒸餾其知識。通過直接以在線策略方式訓練，OPDLM 消除了 DLM 中的訓練與推論不匹配問題，而從原始模型進行蒸餾則增強了從 ARLM 保留知識的能力。實驗結果表明，OPDLM 所需的訓練 token 減少了 15 倍到 7000 倍，同時在各種任務中展現出強勁的性能。OPDLM 避免了 DLM 預訓練的高昂成本，並將 DLM 轉換定位為 ARLM 後訓練的一種形式。

TBD-VLA：時間塊擴散視覺語言動作模型
TBD-VLA: Temporal Block Diffusion Vision Language Action Model

Jun 5

BySung-Wook Lee, Xuhui Kang, Yen-Ling Kuo

離散的視覺-語言-動作（Vision-Language-Action, VLA）模型通常將動作生成表述為在離散化動作空間上的下一個標記預測，並以自回歸方式將每個標記條件化於先前的上下文。儘管這種方法有效，但其推理延遲較高，且在很大程度上忽略了動作軌跡中固有的時間結構。近期的研究引入了並行解碼以提高效率，實現更快的推理，但缺乏對標記依賴關係進行顯式建模的機制。我們提出 TBD-VLA，這是一個基於離散標記的 VLA 框架，通過引入區塊擴散來實現時間動作生成。我們將動作序列劃分為時間區塊，並在每個區塊內進行遮罩離散擴散，同時在區塊之間保持自回歸生成。這種設計統一了時間自回歸與並行動作解碼，同時實現了強大的時間一致性和更快的推理速度。此外，顯式的時間建模還能通過時間修補（temporal in-painting）實現動作塊（例如即時分塊）的非同步執行。TBD-VLA 在模擬和真實世界的操作任務中均顯著優於先前的 VLA 方法，為快速且具時間感知能力的離散 VLA 模型提供了一條可擴展的途徑。專案網頁：https://tbd-vla.github.io/

WorldBench：一個具有挑戰性且視覺多樣的多模態推理基準
WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

Jun 4

ByYida Yin, Harish Krishnakumar, Chung Peng Lee, Boya Zeng, Wenhao Chai, Shengbang Tong, Wenhu Chen, Hu Xu, Xingyu Fu, Gabriel Sarch, Aleksandra Korolova, Zhuang Liu

在實際應用中，模型應能在多樣化的環境下可靠地運行。然而，許多現有的多模態基準測試雖擴展了任務類型，卻未能捕捉處理開放式視覺輸入所需的視覺多樣性。我們提出WorldBench，一個具挑戰性且視覺多樣化的推理基準，用於評估多模態大型語言模型（MLLMs）。我們建立了一個橫跨多個領域（如生物）的數千個視覺概念分類體系。在此分類體系引導下，我們從搜尋引擎和現有數據集中精選大量圖像，以全面呈現視覺世界。透過結構化的反覆試驗，我們手動設計了前沿MLLMs無法回答的具挑戰性問題。在量化評估與人類評估中，WorldBench達到了比任何現有具多樣性基準測試更高的視覺多樣性。在WorldBench上評估15個MLLMs，揭示了其在視覺理解上的弱點：即使是最強的模型，準確率也僅達64.0%，而部分模型的表現僅略高於隨機水平。我們希望這項工作能凸顯視覺多樣性在構建多模態基準測試中的重要性。

Critic-R：使用指令微調檢索器與自然語言內省反饋以改進代理式搜尋
Critic-R: Improving Agentic Search using Instruction-tuned Retrievers with Natural Language Introspective Feedback

May 30

ByMd Zarif Ul Alam, Alireza Salemi, Hamed Zamani

自主搜索系統透過與檢索模型反覆互動，處理複雜查詢。儘管已有顯著進展，但為自主搜索優化檢索模型仍具挑戰，往往需要大量的共同訓練或黃金標準註釋，限制了實際應用。我們提出Critic-R框架，在推理與訓練過程中明確閉合推理代理與檢索模型之間的回饋迴路。Critic-R引入一個評判模型，在接收檢索證據後評估代理的內省推理軌跡，以判斷檢索到的上下文是否充分支持下一步推理。Critic-R包含兩種互補機制：Critic-R-Zero是一種推理時查詢精煉迴路，能反覆改寫查詢與檢索指令；Critic-Embed則是一種檢索模型優化方法，利用成功與失敗的精煉軌跡作為自動監督訊號，無需人工相關性註釋。我們在HotpotQA、2WikiMultihopQA、MuSiQue及Bamboogle上評估Critic-R。結果顯示，Critic-R能顯著提升檢索品質與下游答案準確性。

以指數衰減記憶增強注意力可提升查詢感知的KV稀疏性
Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

May 27

ByXiuying Wei, Caglar Gulcehre

高效推理对长上下文语言模型至关重要，其中注意力计算和KV缓存访问是主要成本。近期工作RAT+提出了一种递归增强的注意力主干，支持推理时的灵活扩张注意力。本文探究这种指数衰减记忆能否改进现有查询感知稀疏推理方法。通过Quest、MoBA和SnapKV等代表性方法，我们证明在八项大海捞针任务中，RAT+在不同稀疏预算下均能持续提升标准注意力的准确性。我们不仅在RAT+论文已发布的检查点上验证了这些增益，也在使用附加记忆模块额外预训练100亿token的OLMo2-7B模型上进行了验证。最后，我们提出两个假设解释该记忆模块为何有利于查询感知稀疏推理，并设计了针对性的实验加以支持。

和弦符號時序適應能承載多少曲風特徵？多曲風和弦符號建模的能力與界限
How Far Can Chord-Symbol Time-Series Adaptation Carry Genre Identity? Capabilities and Boundaries in Multi-Genre Chord-Symbol Modeling

Jun 5

ByJinju Lee

和諧是一個緊湊的象徵層，數學音高關係、聲學協和性與音樂慣例在此交會。本報告將和弦符號序列視為一種可解釋、可控的時間序列，用於特定類型的和聲建模，而非音樂的完整表徵。從一個已凍結的流行爵士音樂Transformer檢查點開始，我評估小型適配介面能將模型延伸至十一種目標類型（藍調、巴薩諾瓦、巴哈合唱曲、鄉村、電子、民謠、放克、福音、嘻哈、節奏藍調/靈魂樂與搖滾）的程度。主要比較了LoRA、IA3、BitFit、前綴調適與完整微調等五種方法，涵蓋11種類型與3個隨機種子，構成完整的165格網格。所有五種方法在保留的和弦預測上均優於凍結基礎模型，宏觀增益從+2.89到+3.61個百分點不等；LoRA與IA3得分最高，但經過Holm與Benjamini-Hochberg校正的Wilcoxon檢定並未支持明確的勝出者。一項匹配數據量的對照實驗使結果更清晰：當各類型被降採樣至共同語料庫大小時，IA3仍居首位，但LoRA在全數據上的優勢消失並降至末位，顯示微小差異部分源自數據驅動。控制標記基線同樣表現強勁，而錯誤類型的適配器往往優於凍結基礎模型，表明大部分效果來自對可重複使用和聲基礎的輕量條件化，而非特定適配器家族。額外的診斷（秩掃描、錯誤類型輪替、基礎檢查點消融、純和弦類型分類、生成輸出統計、真實歌曲評估與重複分析）支持一個有界限的結論：和弦符號適配能可靠改善特定類型的和聲預測，但僅靠和弦符號本身無法承載完整的類型身份。因此，本報告避免論及感知的類型真實性或完整的音樂品質，這些需要受控制的聽眾或音樂家評估。