HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

53 papers found

基於點式互信息的推理強化學習反自我蒸餾
Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information

May 12

ByGuobin Shen, Xiang Cheng, Chenxiao Zhao, Lei Huang, Jindong Li, Dongcheng Zhao, Xing Yu

191

在策略内自蒸馏——即通过将学生模型拉向一个以特权上下文（如已验证的解答或反馈）为条件的自身副本——为无需更强外部教师即可提升推理能力提供了一条有前景的路径。然而，在数学推理任务中，即便同一方法在其他领域取得成功，其增益却并不稳定。点互信息分析表明，问题的根源在于特权上下文本身：它会膨胀教师模型对解答中已隐含的令牌（如结构连接词、可验证断言）的置信度，同时压缩对驱动多步搜索的思考令牌（如“等等”、“假设”、“也许”）的置信度。为此，我们提出反自蒸馏（Anti-Self-Distillation，简称AntiSD），该方法通过增大而非减小学生与教师之间的散度来反转逐令牌的梯度符号，从而在单步中实现自然有界的优势。一个基于熵触发的门控机制会在教师熵崩溃时禁用该术语，完成对默认自蒸馏的即插即用替换。在数学推理基准上对五个参数规模从4B到30B的模型进行测试，AntiSD以GRPO基线2到10倍少的训练步数达到了相同准确率，并将最终准确率提升高达11.5个百分点。AntiSD开辟了一条可扩展的自我改进路径，使语言模型能够通过自身的训练信号自主引导其推理能力。

AutoResearchClaw：人類與AI協作下的自我強化自主研究
AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

May 19

ByJiaqi Liu, Shi Qiu, Mairui Li, Bingzhou Li, Haonian Ji, Siwei Han, Xinyu Ye, Peng Xia, Zihan Dong, Congyu Zhang, Letian Zhang, Guiming Chen, Haoqin Tu, Xinyu Yang, Lu Feng, Xujiang Zhao, Haifeng Chen, Jiawei Zhou, Xiao Wang, Weitong Zhang, Hongtu Zhu, Yun Li, Jieru Mei, Hongliang Fei, Jiaheng Zhang, Linjie Li, Linjun Zhang, Yuyin Zhou, Sheng Wang, Caiming Xiong, James Zou, Zeyu Zheng, Cihang Xie, Mingyu Ding, Huaxiu Yao

182

自動化科學發現所需的遠不只是從想法產生論文。真正的研究是迭代的：假說從多個角度受到挑戰，實驗失敗並為下一次嘗試提供資訊，教訓在不同循環中累積。現有的自主研究系統常將此過程建模為線性管道：它們依賴單一代理推理，在執行失敗時停止，且不會在運行間傳遞經驗。我們提出AutoResearchClaw，這是一個基於五種機制的多代理自主研究管道：用於假說生成與結果分析的結構化多代理辯論、具備樞軸/修正決策循環的自修復執行器，將失敗轉化為資訊、可驗證的結果報告以阻止捏造數字與幻覺引用、具七種干預模式的人機協作（從完全自主到逐步監督），以及跨運行演化，將過往錯誤轉化為未來防護。在包含25個主題的實驗階段基準ARC-Bench上，AutoResearchClaw的表現優於AI Scientist v2達54.7%。一項涵蓋七種干預模式的人機協作消融實驗顯示，在高效槓桿決策點進行精準、目標明確的協作，始終優於完全自主與詳盡的逐步監督。我們將AutoResearchClaw定位為研究放大器，用以增強而非取代人類的科學判斷力。程式碼已公開於 https://github.com/aiming-lab/AutoResearchClaw。

當視覺為聲音代言
When Vision Speaks for Sound

May 13

ByXiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu, Wendi Li, Yanan Xie, Muhao Chen, Peng Qi

147

儘管視覺功能的多模態大型語言模型（MLLMs）進展迅速，我們發現它們在影片中的音訊理解往往由視覺驅動：模型依賴視覺線索推測或幻覺聲學資訊，而非實際驗證音訊串流。這個問題同時出現在最先進的開源全功能模型，以及來自 Google 和 OpenAI 等領先封閉源模型。我們將此失敗模式定性為「視聽聰明的漢斯效應」：模型看似基於音訊進行理解，實則利用視覺與聲學的相關性，卻不驗證視覺與音訊串流是否真正對齊。為系統性研究此行為，我們提出 Thud，一個基於干預的探測框架，包含三種反事實音訊編輯：移位（Shift）測試時間同步性；靜音（Mute）測試聲音存在性；交換（Swap）測試視聽一致性。除診斷外，我們進一步研究一個兩階段對齊配方：由干預生成的偏好配對教導音訊驗證，而事件層級的一般影片偏好則規範模型避免過度專門化。我們最佳的 10K 樣本配方在三種干預維度上的平均表現提升 28 個百分點，同時在一般影片及視聽問答基準上略有進步。

主動學習者作為高效的PRP重排序器
Active Learners as Efficient PRP Rerankers

May 15

ByJeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Barron, Juan Wisznia, Luciano del Corro

成對排名提示（PRP）從大型語言模型（LLM）中引出成對偏好判斷，然後通常透過經典排序演算法將其匯總為排名。然而，判斷存在雜訊、對順序敏感且有時不具有遞移性，因此排序假設與情境不符。由於排序旨在恢復完整的排列，為了滿足呼叫預算而截斷排序無法產生可靠的前K個結果。因此，我們將PRP重新排序重新定義為從帶雜訊的成對比較中進行主動學習，並證明主動排序器是可即插即用的替代方案，能在呼叫受限的情況下提升每次呼叫的NDCG@10。我們的抗噪框架還引入了一個隨機方向預言機，每個成對比較僅需一次LLM呼叫。此方法將系統性的位置偏差轉換為零均值雜訊，能夠在不需雙向呼叫成本的情況下實現無偏的匯總排名。

OpenComputer：電腦使用代理的可驗證軟體世界
OpenComputer: Verifiable Software Worlds for Computer-Use Agents

May 19

ByJinbiao Wei, Qianran Ma, Yilun Zhao, Xiao Zhou, Kangqi Ni, Guo Gan, Arman Cohan

我們提出OpenComputer，這是一個基於驗證器的框架，用於為電腦使用智能體構建可驗證的軟體世界。OpenComputer整合了四個組成部分：（1）應用專屬狀態驗證器，可在真實應用上暴露結構化檢查端點；（2）自進化驗證層，利用執行接地反饋提升驗證器可靠性；（3）任務生成管線，合成現實且可機器檢查的桌面任務；（4）評估工具集，記錄完整軌跡並計算可審計的部分信用獎勵。目前，OpenComputer涵蓋33個桌面應用及1000個最終確定的任務，範圍包括瀏覽器、辦公工具、創意軟體、開發環境、檔案管理器和通訊應用。實驗結果顯示，OpenComputer的硬編碼驗證器與人類判斷的一致性優於以LLM作為評審的評估，特別是在成功取決於細粒度應用狀態的情況下。前沿智能體在端到端完成方面表現掙扎，儘管有部分進展，而開源模型則從其OSWorld驗證分數出現急劇下降，揭示了穩健電腦自動化中持續存在的差距。

GoLongRL：能力導向的多任務對齊長上下文強化學習
GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

May 19

ByMinxuan Lv, Tiehua Mei, Tanlong Du, Junmin Chen, Zhenpeng Su, Ziyang Chen, Ziqi Wang, Zhennan Wu, Ruotong Pan, jian Liang, Ruiming Tang, Han Li

我們提出 GoLongRL，這是一個完全開源、以能力為導向的後訓練方案，專門針對長上下文強化學習與可驗證獎勵（RLVR）設計。現有的長上下文強化學習方法往往將資料建構視為設計日益複雜的檢索路徑，導致任務覆蓋範圍同質化，且獎勵設計無法充分反映實際長上下文需求。我們的貢獻有兩項：(1) 以能力為導向的資料建構與完全開源釋出。我們公開釋出了一個包含 23K 筆 RLVR 樣本的資料集、完整的資料建構流程，以及所有訓練程式碼。基於長上下文能力的分類架構，該資料集涵蓋 9 種任務類型，每種任務皆搭配其自然的評估指標。資料集包含來自既有語料庫的精選開源樣本，以及從真實來源文件（如書籍、學術論文與多輪對話）生成的合成樣本及其問答對。在相同的基本 GRPO 設定下，我們的資料集表現已超越閉源的 QwenLong-L1.5 資料集。此外，基於此資料訓練的 Qwen3-30B-A3B 模型，其長上下文表現可與 DeepSeek-R1-0528 和 Qwen3-235B-A22B-Thinking-2507 匹敵，顯示更廣泛的任務覆蓋與更多樣的獎勵對長上下文能力提升有顯著助益。(2) TMN-Reweight 用於異質多任務最佳化。為了解決異質獎勵帶來的最佳化挑戰，我們提出 TMN-Reweight，該方法結合了任務級均值正規化以對齊跨任務獎勵尺度，以及難度自適應加權以進行更可靠的優勢估計。TMN-Reweight 進一步在基礎 GRPO 之上提升了平均表現，且在已報告的評估中，通用能力得以保留或提升。

以學習可靠性處理獎勵
Process Rewards with Learned Reliability

May 15

ByJinyuan Li, Langlin Huang, Chengsong Huang, Shaoyang Xu, Donghong Cai, Yuyi Yang, Wenxuan Zhang, Jiaxin Huang

過程獎勵模型（PRM）為推理提供了步驟層級的獎勵回饋，然而現有的PRM通常僅對每個步驟輸出單一的獎勵分數。這使得下游方法必須將不完美的步驟層級獎勵預測視為可靠的決策訊號，且無法得知何時該信任這些預測。我們提出BetaPRM，一種分配式PRM，能同時預測步驟層級的成功機率與該預測的可靠性。在蒙地卡羅延續過程所提供步驟成功監督訊號的基礎上，BetaPRM學習一個貝塔信念（Beta belief），該信念透過貝塔-二項似然（Beta-Binomial likelihood）來解釋觀測到的成功延續次數，而非如同傳統做法般將有限樣本的成功比率作為點目標進行迴歸。此學習到的可靠性訊號能指示何時應信任步驟獎勵，使下游應用能夠區分可靠獎勵與不確定獎勵。作為其中一項應用，我們針對PRM引導的N選1（Best-of-N）推理提出適應性計算配置（Adaptive Computation Allocation, ACA）。ACA利用學習到的可靠性訊號，在取得可靠的高獎勵解答時停止計算，並對不確定的候選前綴投入額外計算資源。在四個骨幹模型與四個推理基準測試上的實驗結果顯示，BetaPRM不僅提升了PRM引導之N選1的選擇效能，同時保留了標準的步驟層級錯誤檢測能力。基於此訊號建構的ACA，在準確率與詞元（token）使用量的取捨上優於固定預算的N選1（Best-of-16），能在最高減少33.57%詞元使用量的同時提升最終答案的準確率。

EnvFactory：透過可執行環境合成與穩健強化學習擴展工具使用代理
EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

May 18

ByMinrui Xu, Zilin Wang, Mengyi DENG, Zhiwei Li, Zhicheng Yang, Xiao Zhu, Yinhong Liu, Boyu Zhu, Baiyu Huang, Chao Chen, Heyuan Deng, Fei Mi, Lifeng Shang, Xingshan Zeng, Zhijiang Guo

透過基於代理的強化學習（Agentic RL）賦予大型語言模型工具使用能力，目前面臨兩大瓶頸：缺乏可擴展且穩健的執行環境，以及缺乏能捕捉人類隱含推理過程的真實訓練數據。現有方法依賴成本高昂的真實世界API、易產生幻覺的大型語言模型模擬器，或常為單輪對話、依賴預先收集文件的合成環境。此外，合成軌跡往往過度規範，更像指令序列而非自然的人類意圖，降低了其在強化學習訓練中的有效性。我們提出EnvFactory，一個全自動化框架，同時解決上述兩項挑戰。EnvFactory能自主從真實資源中探索並驗證具狀態性、可執行的工具環境，並透過拓撲感知取樣與校準式精煉，合成自然的多輪軌跡，產出具隱含意圖的基礎查詢。僅使用來自7個領域的85個經過驗證的環境，EnvFactory便能生成2,575條監督式微調與強化學習軌跡。儘管使用的環境數量遠少於先前研究（常為其五倍以上），EnvFactory仍實現了更優的訓練效率與下游效能，在BFCLv3上將Qwen3系列模型提升最多+15%，在MCP-Atlas上提升+8.6%，在包含τ²-Bench與VitaBench的對話基準測試上提升+6%。透過完全自動化環境建構與軌跡合成，EnvFactory為基於代理的強化學習提供了可擴展、可擴充且穩健的基礎。

CogOmniControl：基於創意意圖認知的推理驅動可控視頻生成
CogOmniControl: Reasoning-Driven Controllable Video Generation via Creative Intent Cognition

May 19

ByHongji Yang, Songlian Li, Yucheng Zhou, Xiaotong Zhao, Alan Zhao, Chengzhong Xu, Jianbing Shen

最近的擴散模型在影片生成中展現出極佳的逼真寫實性與流暢度，但在處理抽象、稀疏或複雜條件時仍顯脆弱，因此在專業製作流程（如分鏡草圖與黏土渲染條件）中表現不佳。現有的影片生成模型，無論是透過適配器注入條件，或是將通用視覺語言模型與擴散主幹結合，皆存在能力落差，無法產出符合使用者創作意圖的影片。我們提出CogOmniControl，這是一個以推理驅動的框架，將可控影片生成分解為創意意圖認知與生成兩個部分。具體而言，我們使用真實動畫製作資料訓練一個專用的CogVLM。與通用視覺語言模型相比，它能產生更專業且清晰的輸出，準確地從稀疏抽象條件中認知使用者的創意意圖，並將這些線索轉化為稠密的推理輸出。此外，CogOmniDiT透過情境生成統一來自各種條件的控制，並透過強化學習與CogVLM的推理輸出對齊。進一步地，我們利用CogVLM在引導影片生成方面的強大能力，釋放其在規劃特定評估器上的潛力，並實現對生成影片的「最佳N選」機制。此整合將整個框架轉變為一個封閉迴路的「馬具式」架構。我們進一步介紹了CogReasonBench與CogControlBench，這兩個基準是基於承載真實創意意圖（而非模擬意圖）的專業工作流程資料建構而成。在兩個基準上的實驗顯示，CogOmniControl超越了現有的開源模型。專案網站：https://um-lab.github.io/CogOmniControl/

運用技能程序駕馭LLM代理
Harnessing LLM Agents with Skill Programs

May 18

ByHongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao

為LLM代理配備從過去經驗中提煉出的可重複使用技能，已成為處理複雜且長期任務的一種熱門且有效的方法。然而，這類經驗教訓通常以文字指導的形式編碼，大多僅具建議性，缺乏在代理循環中何時及如何介入的明確機制。為填補此缺口，我們提出HASP（Harnessing LLM Agents with Skill Programs）框架，將技能升級為可執行的程式功能（Program Functions, PFs）。與提供被動建議不同，PF在易出錯的狀態下啟動，作為可執行的護欄，修改下一步行動或注入修正性上下文。HASP具有高度模組化特性：可在推理階段直接應用於代理循環的即時干預，在訓練後期提供結構化監督，或透過演化經驗證與教師審核的PF來實現自我改進。實驗結果顯示，無論是相較於免訓練還是基於訓練的方法，HASP在網路搜尋、數學推理與程式碼生成任務上均帶來顯著提升。例如，在網路搜尋推理任務中，僅使用推理階段的PF即可使平均表現比（多輪）ReAct代理提升25%，而訓練後期與受控演化則相較於Search-R1取得30.4%的增益。為深入探討HASP的運作機制，我們的機制分析揭示了PF如何觸發與干預、技能如何被內化，以及穩定技能庫演化的必要條件。

Aurora：使用工具代理的統一影片編輯
Aurora: Unified Video Editing with a Tool-Using Agent

May 18

ByYongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua, Wei Xiong, Jiebo Luo

近期影片編輯模型已收斂至統一的條件設計：單一擴散轉換器同時處理文字、來源影片及參考影像，並以同一組權重涵蓋替換、移除、風格轉換及參考驅動插入等任務。此設計具備靈活性，但前提是用戶已提供符合模型規格的文字、參考影像及局部編輯的空間定位，而實際需求往往缺乏這些資訊。我們提出 Aurora——一個智慧代理影片編輯框架，將工具增強型視覺語言模型代理與統一影片擴散轉換器結合。視覺語言模型代理會將原始用戶請求映射為符合擴散轉換器條件通道的結構化編輯計畫，從而在生成前解決文字與視覺層面的規格不足問題。我們透過監督式資料（涵蓋完整編輯規劃與參考影像選取）及偏好配對（用於強化工具使用與指令精煉）來訓練視覺語言模型代理。為評估智慧代理增強型影片編輯在文字與視覺規格不足情境下的表現，我們引入 AgentEdit-Bench 基準。在 AgentEdit-Bench 與兩個現有影片編輯基準上的實驗顯示，Aurora 較純指令基準方法有顯著提升，且視覺語言模型代理可遷移至相容的凍結式影片編輯模型。專案網頁：https://yeates.github.io/Aurora-Page

Artifact-Bench：評估多模態大語言模型對AI生成影片偽影之檢測與評估
Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

May 18

ByYuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai, Yue Ding, Ruizhe Chen, Bohan Zeng, Xinlong Chen, Xuanyu Zhu, Bozhou Li, Yuran Wang, Yifan Dai, Chengzhuo Tong, Xinyu Liu, Yiyan Ji, Yujie Wei, Yuhao Dong, Shilin Yan, Fengxiang Wang, Yi-Fan Zhang, Haotian Wang, Yuanxing Zhang, Pengfei Wan

近期視頻生成模型大幅提升了AI生成視頻的真實感，但其輸出仍存在時間不一致性、結構失真與語義不連貫等偽影。儘管多模態大型語言模型（MLLMs）展現了強大的視覺理解能力，但其對這類偽影的感知與推理能力仍不明確。現有基準測試往往缺乏對偽影感知與細粒度診斷推理的系統性評估，尤其缺乏對超越照片級真實感內容的多樣化AI生成視頻領域的評估。為填補這一空白，我們提出Artifact-Bench，一個用於評估多模態大型語言模型（MLLMs）在AI生成視頻偽影檢測與分析方面能力的綜合基準測試。我們首先建立了一個三層級的現實偽影層級式分類體系，涵蓋照片級真實感、動畫及CG風格視頻。基於此分類體系，Artifact-Bench定義了三項互補任務：真實與AI生成視頻分類、成對真實感比較，以及細粒度偽影識別。對19個領先多模態大型語言模型（MLLMs）的實驗揭示了其在偽影感知與推理方面的顯著局限，多個模型在具有挑戰性的設定下表現接近甚至低於隨機水平。我們進一步觀察到多模態大型語言模型（MLLMs）判斷與人類感知偏好之間存在顯著不一致，凸顯了其作為AI生成視頻真實感通用評估器的可靠性有限。

ThoughtTrace：理解用戶在真實世界LLM交互中的思維
ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions

May 19

ByChuanyang Jin, Binze Li, Haopeng Xie, Cathy Mengying Fang, Tianjian Li, Shayne Longpre, Hongxiang Gu, Maximillian Chen, Tianmin Shu

对话式AI现已覆盖数十亿用户，然而现有数据集仅记录人们的表述内容，而非其内在思维。我们推出ThoughtTrace——首个将现实世界多轮人机对话与用户自我报告思维（包括发送提示的原因及对助手回复的反应）配对的大规模数据集。该数据集涵盖1,058名用户、2,155段对话、17,058轮交互及10,174条思维注释，数据采集自20种语言模型。分析表明，ThoughtTrace捕捉了长跨度、主题多样的交互过程，且思维记录在语义上与消息截然不同：前沿大型语言模型难以通过上下文推断这些思维，其内容多样并与对话阶段密切关联。我们进一步展示了思维对下游建模的价值：首先，思维作为推理时上下文可提升用户行为预测效果；其次，思维引导的改写为训练个性化助手提供细粒度对齐信号。综上，ThoughtTrace将用户思维确立为研究人机交互背后认知动态的新数据模态，为构建更贴合用户潜在目标、偏好与需求的助手奠定基础。

OmniGUI：全模態智慧型手機環境下的GUI代理基準測試
OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments

Apr 3

ByFelix Henry, Xiaochen Lin, Jiangyou Zhu, Yangfan, Bingqian Zhang, Min Chen, Shiyu Huang

目前針對圖形使用者介面（GUI）代理的基準測試主要依賴靜態螢幕截圖。然而，現實世界的智慧型手機互動經常需要代理處理與行動時刻緊密耦合的瞬時音訊提示及時間性影片動態。為填補此差距，我們提出OmniGUI，這是首個專為在全模態智慧型手機環境中評估GUI代理而設計的步驟層級基準。OmniGUI提供連續、交錯的多模態輸入，包含每個行動步驟中的靜態影像、同步音訊及影片片段。該資料集涵蓋29個應用程式中709個專家示範的任務（共2,579個行動步驟），並系統性地標註了客觀的多模態依賴程度。由於專屬的全模態GUI代理框架目前仍處於初期階段，我們選擇能原生處理交錯輸入的基礎全模態模型作為初始基線的代理代表。我們的實證評估顯示，雖然現有模型在視覺靜態任務上表現良好，但在需要同步時間與聽覺訊號的環境中，其行動預測效能顯著下降。此外，消融研究隔離出特定的運算瓶頸，特別是在處理與任務無關的環境噪音時所產生的跨模態干擾。完整資料集、評估流程及基線提示均已提供於補充材料中。專案頁面：https://omni-gui.github.io。

MSAVBench：邁向多鏡頭音頻視頻生成的全面且可靠評估
MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

May 19

ByYujie Wei, Yujin Han, Zhekai Chen, Yongming Li, Kaixun Jiang, Zhihang Liu, Quanhao Li, Zhiwu Qing, Xiang Wang, Zhen Xing, Ruihang Chu, Lingyi Hong, Yefei He, Junjie Zhou, Junqiu Yu, Yang Shi, Difan Zou, Kai Zhu, Shiwei Zhang, Yingya Zhang, Yu Liu, Xihui Liu, Hongming Shan

影片生成正從單鏡頭合成快速演進至複雜的多鏡頭音視頻（MSAV）敘事，以因應現實世界的需求。然而，評估這類前沿模型仍是一項根本挑戰。現有基準在範疇與數據多樣性上有所侷限，且依賴僵化的評估流程，無法對現代MSAV模型進行系統性且可靠的評估。為彌補這些差距，我們提出MSAVBench，這是首個專為多鏡頭音視頻生成設計的綜合性基準與自適應混合評估框架。我們的基準涵蓋四大關鍵維度：影片、音訊、鏡頭與參考，包含多樣化的任務設定、最高達15個鏡頭的變換數量，以及具挑戰性的非寫實場景。我們的評估框架透過自適應自我修正機制進行鏡頭分割、採用實例級評分標準處理主觀指標，以及基於工具的證據提取進行複雜判斷，從而提升評估的穩健性。此外，MSAVBench與人類判斷高度一致，達到91.5%的斯皮爾曼等級相關係數。我們對19個當前最先進的封閉源與開放源模型進行的系統性評估顯示，現有系統在導演級控制與細緻的音畫同步方面仍面臨挑戰，而模組化或代理式生成管線則為縮小開放源與封閉源模型之間的差距提供了具潛力的途徑。我們將公開基準數據與評估程式碼，以促進未來研究。

互動式評估需要設計科學
Interactive Evaluation Requires a Design Science

May 18

ByKeyang Xuan, Peiyang Song, Pan Lu, Pengrui Han, Wenkai Li, Zhenyu Zhang, Zexue He, Wenyue Hua, Manling Li, Jiaxuan You, Adrian Weller, Yizhong Wang, Jiaxin Pei

AI評估正經歷結構性轉變。大型語言模型（LLMs）日益部署為可透過工具、環境、使用者及其他智能體，隨時間推移而運作的系統，然而許多評估實務仍沿用來自以回應為中心的基準測試之假設（例如：固定輸入、孤立輸出，以及可從單一回應作出的結果判斷）。學界已開始建構互動式基準測試，但由此形成的領域圖像零散破碎：各基準在接納何種互動產物、如何為軌跡評分，以及其結果能支撐何種論點上並不一致。本立場論文主張，應將互動式評估視為一項具原則性的評估典範，而非僅是新型智能體基準測試的集合。單純沿用既有評估典範並不足夠。我們將評估定義為從證據到判斷的自動化映射，並指出互動式評估改變了此映射的兩端：證據變成由互動產生的軌跡，而評估程序則必須評判過程、可恢復性、協調性、強健性及系統層級表現。奠基於此定義，我們提出雙軸分類法、推導設計原則與報告標準、檢視代表性場景，並分析長期的評估挑戰如何在軌跡層級重新浮現。

CEPO：使用對比證據策略優化的RLVR自我蒸餾
CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization

May 19

ByAhmed Heakl, Abdelrahman M. Shaker, Youssef Mohamed, Rania Elbadry, Omar Fetouh, Fahad Shahbaz Khan, Salman Khan

當模型在可驗證獎勵的強化學習（RLVR）下產生正確解答時，每個詞元（token）都會收到相同的獎勵信號，無論該詞元是關鍵推理步驟還是語法填充詞。自然的解決方法是將模型建立在正確答案的「教師信號」上，識別出如果模型事先知道答案，它會產生不同輸出的那些詞元。先前的研究顯示，這樣做要麼將答案洩漏到梯度中而破壞訓練，要麼產生無法區分關鍵步驟與填充詞的微弱信號，因為相對於模型的基準分佈，兩者看起來同樣令人驚訝。我們提出對比證據策略優化（CEPO），該方法在每個詞元處提出更精確的問題：不僅是「正確答案是否偏好此詞元？」，而是「正確答案偏好此詞元，同時錯誤答案對此詞元不偏好？」。同時滿足這兩個條件的詞元是真正的推理步驟；兩者皆不滿足的則是填充詞。錯誤答案的教師信號是從訓練批次中已有的被拒絕軌跡（rejected rollouts）構建而成，不產生額外的抽樣成本。我們證明CEPO繼承了先前最新方法的全部結構性安全保障，同時嚴格增強了關鍵詞元處的信用分配，而這種改善在填充詞位置上恰好消失。在實驗中，CEPO在五個多模態數學推理基準測試上，2B與4B規模的平均準確率分別達到43.43%與60.56%，相較之下，在相同訓練預算下，GRPO的平均準確率為41.17%與57.43%。分佈匹配自蒸餾方法（OPSD、SDPO）的表現低於未訓練的基線，這在實驗上證實了我們理論所預測的資訊洩漏問題。我們的程式碼可於 https://github.com/ahmedheakl/CEPO 取得。

SENSE：基於衛星的能源綜合以促進可持續環境
SENSE: Satellite-based ENergy Synthesis for Sustainable Environment

May 18

ByKailai Sun, Mingyi He, Heye Huang, Can Rong, Alok Prakash, Baoshen Guo, Shenhao Wang, Jinhua Zhao

城市建筑能耗建模在实现联合国可持续发展目标7和11中扮演着关键角色。尽管现有基于卫星影像和深度学习的研究已取得显著进展，但仍面临诸多挑战：多数现有研究本质上是预测性的，未能反映城市规划的生成性本质；虽然生成式AI和扩散模型在卫星影像领域呈爆发式增长，但缺乏城市功能生成（如能源层）；第三，与卫星影像对齐的高质量高分辨率建筑能耗数据十分稀缺。为此，我们提出SENSE（可持续环境卫星能源合成）框架——一种统一的生成式UBEM框架，可联合合成逼真的城市卫星影像以及与之对齐的高质量建筑能耗图和高度图。通过以道路网络和城市密度指标为条件，基于可控扩散模型的SENSE利用大型视觉模型学到的知识，在潜在空间中生成城市建筑能耗和高度信息（标注）。在四个城市（纽约、波士顿、里昂、釜山）的实验表明，SENSE实现了高视觉保真度和强物理一致性，满足ASHRAE标准指标。实验证明，SENSE仅需使用不到20%的标注能耗数据即可生成充足的合成标注数据，将下游预测性能提升10% IoU。与最先进的城市能耗预测方法相比，SENSE显著降低了预测误差（NMBE降低3%-11%，CVRMSE降低1%-9%）。本研究为城市科学、能源科学与建筑科学提供了一种能效导向的城市规划与物理生成解决方案。数据集与代码：https://huggingface.co/datasets/skl24/MUSE 和 https://github.com/kailaisun/GenAI4Urban-Energy/。

視頻模型可利用可驗證獎勵進行推理
Video Models Can Reason with Verifiable Rewards

May 14

ByTinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen

視頻擴散模型在感知真實性與時間連貫性方面進展迅速，但其主要針對看似合理的生成進行優化，而非可驗證的推理。此局限在生成的影片必須滿足明確的空間、時間或邏輯約束的任務中尤為明顯。受強化學習結合可驗證獎勵（RLVR）在推理導向語言模型中所扮演角色的啟發，我們引入了VideoRLVR，這是一個基於規則反饋來優化影片擴散模型的實用方案。VideoRLVR將影片推理表述為生成可驗證的視覺軌跡，並包含SDE-GRPO優化主幹、密集分解獎勵，以及用於高效訓練的早期步驟聚焦策略。該策略將策略優化限制在早期去噪階段，在維持性能的同時，將訓練延遲降低約40%。我們在Maze、FlowFree和Sokoban這三個具備客觀成功標準的程序生成領域中評估了VideoRLVR。在這些任務中，VideoRLVR持續優於監督式微調基線，而密集分解獎勵在成功率較低的設定中尤為重要。我們經過強化學習優化的模型在這些可驗證推理基準與域外基準上，也優於所評估的專有及開源影片生成模型。這些結果表明，可驗證的強化學習能將影片模型從感知模仿，推向更可靠的規則一致之視覺推理。

PixVerve：利用大规模高品質資料集將原生超高解析度影像生成推進至1億像素
PixVerve: Advancing Native UHR Image Generation to 100MP with a Large-Scale High-Quality Dataset

May 19

ByHaojun Chen, Haoyang He, Chengming Xu, Qingdong He, Junwei Zhu, Yabiao Wang, Zhucun Xue, Xianfang Zeng, Zhennan Chen, Xiaobin Hu, Hao Zhao, Yong Liu, Jiangning Zhang, Dacheng Tao

文字生成图像（T2I）模型近期在约1K至2K解析度領域已取得顯著進展。隨著對更優視覺體驗的極致追求以及影像技術的快速發展，超高解析度（UHR）影像生成的需求大幅增加。然而，由於高解析度內容的稀缺性與複雜性，UHR影像生成面臨巨大挑戰。本文首先介紹PixVerve-95K——一個高品質、開源的UHR T2I資料集，其透過精心設計的資料管道進行建構，包含95K張涵蓋多種場景（每張影像最小像素數達1億）並附有七維標註的影像。基於此大規模影像-文字資料集，我們率先嘗試透過三種訓練方案，將多種T2I基礎模型擴展至原生1億像素的生成能力。最後，結合傳統指標與多模態大型語言模型評估方法，我們提出的PixVerve-Bench基準測試建立了涵蓋視覺品質與語義一致性的UHR影像全面評估協定。在該基準測試上的廣泛實驗結果，以及對訓練策略的建設性探索，共同為未來突破提供了寶貴見解。

面向統一多模態模型的語義生成式微調
Semantic Generative Tuning for Unified Multimodal Models

May 18

BySongsong Yu, Yuxin Chen, Ying Shan, Yanwei Li

統一多模態模型（UMMs）旨在單一架構中整合視覺理解與視覺生成。然而，現行訓練範式透過稀疏文本信號獨立優化理解任務，並以密集像素目標優化生成任務。這種解耦策略導致表徵空間錯位，使視覺理解與生成相互隔離，進而阻礙彼此增益。本研究首度系統性地探討生成式後訓練，我們將分層視覺任務建構為生成代理，以彌合UMMs中的隔離狀態。實驗結果顯示，高層語義任務——特別是影像分割——為最適代理。不同於關注紋理細節的低層任務（可能誤導模型），分割提供結構化語義，既能顯著強化以視覺為中心的感知能力，亦可提升生成佈局保真度。基於此發現，我們提出語義生成微調（SGT），一種利用分割作為生成代理以對齊並協同多模態能力的新穎範式。機制分析進一步證明，SGT從根本改善特徵線性可分性，並優化視覺-文本注意力分配模式。廣泛評估顯示，SGT在多個主流基準測試中持續提升多模態理解與生成保真度。我們的程式碼已公開於 https://song2yu.github.io/SGT/。

基於時空注意力鏈的快速4D網格生成
Fast 4D Mesh Generation by Spatio-Temporal Attention Chains

May 19

ByDvir Samuel, Yuval Atzmon, Gal Chechik, Yoni Kasten

4D網格生成近期已成為一種從影片中重建動態3D結構的強大典範，但現有方法仍存在速度慢、計算成本高且難以擴展至更長序列的問題。我們提出一種免訓練方法，在加速4D網格生成的同時提升時間對應品質。我們的核心觀察在於，時間對應關係早在4D主幹網路生成的網格達到視覺精確之前，便已在此主幹網路中湧現。我們藉此提出一個通用框架，稱為時空注意力鏈，它能跨空間與時間傳播資訊。從錨點網格上的頂點出發，該鏈將頂點映射至潛在標記；接著遵循潛在空間中的時間對應關係，並透過潛在至頂點的注意力機制恢復出各幀特有的頂點。此設計避免了昂貴的顯式匹配，同時保留錨點網格的細節，進而改善動態網格幾何結構與時間一致性。與現有最佳方法相比，我們的方法僅需9秒即可生成一個4D網格，實現13倍加速，同時產出更高品質的結果。此外，我們的方法可擴展至長達16倍的影片序列，且不降低網格品質。除了生成任務之外，改善後的對應關係使我們在兩項下游任務——2D物體追蹤與4D追蹤——中達到具競爭力的零次學習表現。我們進一步展示，本框架能實現可靠的相機估計，這項能力是先前4D網格生成方法所無法支援的。

RT-Splatting：基於高斯潑濺的反射與傳輸聯合建模
RT-Splatting: Joint Reflection-Transmission Modeling with Gaussian Splatting

May 18

ByJi Shi, Xianghua Ying, Bowei Xing, Ruohao Guo, Wenzhen Yue

3D高斯噴濺（3DGS）技術能實現即時的新視角合成，並具備高視覺品質。然而，現有方法在處理兼具複雜反射與清晰透射的半透明鏡面表面時常遭遇困難，往往產生模糊的反射或過度遮擋的透射。為解決此問題，我們提出RT-Splatting框架，該框架將每個高斯元的幾何佔有率與光學不透明度進行解耦。此因式分解透過單一組高斯原語，產生統一的表面-體積場景表示法。我們的混合渲染器將此表示法同時詮釋為捕捉高頻反射的表面，以及保留清晰透射的體積。為減輕聯合最佳化反射與透射時的不明確性，我們引入鏡面感知梯度閘控機制，抑制來自高度鏡面區域的誤導梯度進入透射分支，有效減少干擾性浮游物。在具挑戰性的半透明場景實驗中，RT-Splatting展現最先進的效能，在即時渲染下同時提供高保真反射與清晰透射。此外，我們的因式分解自然實現了靈活的場景編輯。專案頁面請見https://sjj118.github.io/RT-Splatting。

增量注意力殘差
Delta Attention Residuals

May 13

ByCheng Luo, Zefan Cai, Junjie Hu

注意力殘差以學習過的 softmax 注意力機制取代標準加法殘差連接，作用於先前層的輸出，從而實現跨層的選擇性路由。然而，標準注意力殘差仍會關注先前層中高度重複的累積隱藏狀態。我們證明，這種冗餘性會導致深層網路中的路由坍縮：注意力權重變得低對比度且趨於均勻（最大權重約為 0.2），限制了模型從先前層中選取資訊豐富狀態的能力。這引發了一個關鍵但尚未充分探索的設計問題：注意力殘差中應對哪些層級表示進行路由？為回答此問題，我們提出增量注意力殘差（Delta Attention Residuals），其關注的是增量——即每個子層帶來的變化（v_i = h_{i+1} - h_i）——而非累積狀態。增量表徵在結構上具有多樣性，能產生更高對比度的注意力分佈（最大權重約為 0.6），從而實現更具選擇性與更有效的跨層路由。此原則同時適用於每個子層與區塊粒度的層級。在所有測試規模（220M 至 7.6B 參數）中，增量注意力殘差均一致優於標準殘差與注意力殘差，驗證困惑度提升達 1.7% 至 8.2%。此外，增量注意力殘差還可透過標準微調，將預訓練檢查點轉換為增量注意力殘差結構。程式碼已公開於 https://github.com/wdlctc/delta-attention-residuals-code。

利用強化微調克服視覺持續學習中的災難性遺忘
Overcoming Catastrophic Forgetting in Visual Continual Learning with Reinforcement Fine-Tuning

May 10

ByMeng Lou, Hanzhong Guo, Linwei Chen, Yizhou Yu

近期研究表明，强化微调（RFT）相较于监督微调（SFT）在抵抗灾难性遗忘方面具有天然优势。然而，RFT方法（例如GRPO）能否在类增量学习（CIL）和域增量学习（DIL）等具有挑战性的视觉持续学习场景中有效克服遗忘，仍是一个开放性问题。通过初步研究，我们证实虽然RFT的性能始终优于SFT，但其仍存在不可忽视的遗忘问题。我们通过实证将这一瓶颈追溯至"轨迹级漂移不可知性"：在达到相同任务奖励的候选轨迹中，与前序任务策略的KL散度差异显著，且这种差异与跨序列任务的灾难性遗忘高度相关。基于此发现，我们提出"保留感知策略优化"（RaPO）——一种简洁高效的RFT方法，通过轨迹级奖励塑形显式缓解遗忘。具体而言，RaPO包含两个核心组件：（1）保留奖励，将轨迹级分布漂移转化为连续奖励信号，优先强化每组内保留知识的轨迹；（2）跨任务优势归一化（CTAN），在任务边界维持奖励统计量的指数移动平均，以稳定持续学习过程中的优化进程。借助多模态大语言模型（MLLM）的自由形式文本泛化能力，我们在五个视觉持续学习场景中对RaPO进行了全面评估。大量实验表明，RaPO实现了领先性能，在保持强可塑性的同时大幅减少了灾难性遗忘。据我们所知，本工作是视觉持续学习中RFT方法的首次系统探索，其研究启示有望为未来工作提供借鉴。

PEEK：上下文映射作為長上下文LLM智能體的方向快取
PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents

May 19

ByZhuohan Gu, Qizheng Zhang, Omar Khattab, Samuel Madden

大型語言模型（LLM）代理越來越多地處理長時間且重複發生的外部上下文，例如文件語料庫與程式碼儲存庫。在多次調用之間，現有方法保留了代理的軌跡、被動存取原始素材的能力，或任務層級的策略。然而，這些方法都未保留對重複性相同上下文工作負載來說最為關鍵的要素：關於重複上下文本身的可重複使用定向知識（例如，上下文包含哪些內容、如何組織，以及歷史上哪些實體、常數和模式曾被證明有用）。我們提出 PEEK 系統，該系統將此類定向知識快取並維護為一個上下文地圖：一種小型、大小固定的工件，嵌入代理的提示中，使其能持續窺見外部上下文。該地圖由一個可程式化的快取策略維護，包含三個模組：蒸餾器（Distiller），從推理時訊號中提取可遷移的知識；製圖器（Cartographer），將這些知識轉換為結構化編輯；以及基於優先級的驅逐器（Evictor），強制執行固定的令牌預算。在長上下文推理與資訊聚合任務上，PEEK 相較於強基線提升了 6.3%–34.0%，同時減少了 93–145 次迭代，且成本比最先進的提示學習框架 ACE 低 1.7–5.8 倍。在上下文學習方面，PEEK 的解題率與評分準確率分別提升 6.0%–14.0% 與 7.8%–12.1%，成本僅為 ACE 的 1.4 倍。這些增益普遍適用於多種語言模型與代理架構，包括生產級編碼代理 OpenAI Codex。綜合來看，這些結果顯示，上下文地圖能協助長上下文 LLM 代理更準確且高效地與重複發生的外部上下文互動。

少草稿，多檢索：用於推測性解碼的混合樹狀結構建構
Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding

May 19

ByYuhao Shen, Tianyu Liu, Xinyi Hu, Quan Kong, Baolin Zhang, Jun Dai, Jun Zhang, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan, Cong Wang

推測解碼（SD）透過「先草稿再驗證」的典範來加速大型語言模型的推論。為了最大化接受率，近期方法建構了龐大的草稿樹，但這些樹卻不幸地導致嚴重的VRAM頻寬與計算開銷，成為端到端加速的瓶頸。雖然動態深度剪枝可以透過移除邊緣分支來降低此延遲，但它也會丟棄潛在有效的候選項，使接受率無法達到密集樹的上限。在本文中，我們識別出資源配置中的一個關鍵機會：從密集草稿到剪枝草稿的轉變釋放了顯著的計算預算。為了打破這種帕累托權衡，我們引入了Graft，這是一個補償框架，將剪枝與檢索耦合為相互強化的操作。剪枝為檢索提供充足的預算，而檢索則補償剪枝造成的覆蓋損失，並恢復接受長度。透過採用順序的「先剪後接」機制，Graft將高度預測性的檢索令牌附加到剪枝所開放的位置上，以近乎零的開銷填補拓撲間隙。Graft完全無需訓練且無損。全面的評估顯示，Graft在實際部署場景中建立了新的帕累托前沿，包括短上下文生成、長上下文生成以及大規模模型。在短上下文基準測試中，它實現了高達5.41倍的加速，並在大型Qwen3-235B模型上比EAGLE-3的平均加速提升了高達21.8%。我們還初步探索了將Graft應用於DFlash風格的塊草稿典範，為將嫁接擴展到自迴歸草稿樹之外提供了初步證據與見解。

TideGS：通過核外優化可擴展訓練超過十億個三維高斯潑濺基元
TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization

May 19

ByChonghao Zhong, Linfeng Shi, Hua Chen, Tiecheng Sun, Hao Zhao, Binhang Yuan, Chaojian Li

訓練十億基元規模的3D高斯潑濺（3DGS）本質上面臨記憶體瓶頸：每個高斯基元攜帶一個大型屬性向量，且聚合參數表迅速超出GPU容量，導致先前的系統在單一消費級GPU上僅能處理數千萬個高斯基元。我們觀察到3DGS訓練本質上具有稀疏性且依賴於軌跡條件：每次迭代僅啟動當前相機批次中可見的高斯基元，因此GPU記憶體可作為工作集快取，而非持續性的參數儲存空間。基於此洞察，我們提出TideGS，一個外存訓練框架，透過三項協同技術在SSD-CPU-GPU層級間管理參數：符合SSD對齊空間區域性的區塊虛擬化幾何體、用於重疊I/O與計算的層級非同步管線，以及軌跡自適應差分串流傳輸——僅在迭代間傳輸增量工作集差異。實驗結果顯示，TideGS可在單張24 GB GPU上訓練超過十億個高斯基元，同時在大型場景中達成所有受評估的單GPU基線方法中最高的重建品質，其規模超越先前的外存基線（例如約1億個高斯基元）與標準記憶體內訓練（例如約1,100萬個高斯基元）。

並非每種評分標準都有相同的教學效果：針對RLVR的政策感知評分獎勵
Not Every Rubric Teaches Equally: Policy-Aware Rubric Rewards for RLVR

May 19

ByUtkarsh Tyagi, Xingang Guo, MohammadHossein Rezaei, Daniel George, Anas Mahmoud, Jackson Lee, Bing Liu, Yunzhong He

可驗證獎勵的強化學習使得在正確性能自動檢核時，後訓練變得極為有效。然而，許多重要的模型行為需要同時滿足多項定性標準。基於評分標準的獎勵透過對提示專屬的標準進行評分，並將其聚合為標量獎勵來處理此情境。但標準的靜態聚合方式會混淆人類賦予該標準的重要性與其作為當前優化訊號的實用性。我們證明此假設在評分標準強化學習中不成立：許多重要標準已達到飽和或當前無法觸及，而能區分模型生成結果的標準，其重要性未必對應人類賦予的最大權重。我們提出 POW3R，一個策略感知的評分標準獎勵框架，其在保留人類權重與類別平衡作為評分標準目標的同時，於訓練期間調整標準層級的獎勵權重。POW3R 利用生成結果層級的對比，凸顯當前能區分策略輸出的標準，從而使 GRPO 獎勵更具資訊性，而不改變底層評估目標。在三個基礎策略與兩個涵蓋多模態及純文字設定的數據集上，POW3R 在 30 項基礎策略/指標比較中勝出 24 項，同時提升了平均評分標準獎勵與嚴格完成率（即回應滿足所有必要評分標準的提示比例），並且在僅需原始 GRPO 搭配評分標準獎勵 2.5 至 4 倍的訓練步數內達到相同的平台期。因此，評分標準獎勵應區分最終答案中應重視的目標，與能教導當前策略的訊號。

網格上三角剖分無關流匹配的Matérn噪聲
Matérn Noise for Triangulation-Agnostic Flow Matching on Meshes

May 19

ByTianshu Kuai, Arman Maesumi, Daniel Ritchie, Noam Aigerman

本文探討如何在三角形網格上以「三角化無關」的方式學習生成訊號，意即訓練後的模型能有效應用於不同的網格與三角剖分。在實務上，本文將流匹配（flow matching, FM）範式調整為適用於基於網格且三角化無關的設定；在理論上，則提出一種特定的雜訊分佈（具備三角化無關特性），用於FM模型的去噪過程。雖然對於如影像等領域，設計雜訊分佈通常很簡單，但要設計出三角化無關的分佈卻是一大挑戰。我們透過頻譜對分佈的三角化無關性給出數學定義，接著證明一種稱為馬特恩過程（Matérn process）的特定高斯隨機場之離散化具有這些理想性質，並提供簡潔高效的取樣演算法。我們以此作為雜訊模型，並採用當前在網格上於梯度域學習訊號的尖端方法——PoissonNet——作為去噪器，將FM調整至三角化無關的設定。我們在複雜任務（如取樣彈性靜止狀態、生成人形姿態）上進行實驗，結果顯示本方法能為超過一百萬個三角形的網格產生高度逼真的結果，在品質與多樣性上均大幅超越當前最佳技術。

零樣本模擬至真實機器人學習：一項針對反應式接捕的靈巧操作研究
Zero-Shot Sim-to-Real Robot Learning: A Dexterous Manipulation Study on Reactive Catching

May 10

ByKejia Ren, Gaotian Wang, Andrew S. Morgan, Kaiyu Hang

靈巧操作高度依賴物理，且對建模誤差與感知雜訊極為敏感，使得模擬到真實的遷移極具挑戰性。域隨機化（DR）常用來提升此類任務中學習策略的穩健性，但傳統的DR方法每回合僅隨機化一個實例，導致對於真實世界動態變異性的曝露非常有限。為此，我們提出域隨機化實例集（DRIS），該方法同時表示並傳播一組隨機化的實例，能提供對不確定動態更豐富的近似，並使策略能學習考慮多種可能結果的動作。在理論分析的支持下，我們證明DRIS能產生更穩健的策略，且即便使用數量不多的實例（例如10個），也能減少對真實世界微調的需求。我們在一個具挑戰性的反應式捕捉任務中驗證了這一點。與傳統捕捉裝置使用設計為機械穩定物體的末端執行器（例如曲面或包覆表面）不同，我們的系統採用平板，無法提供被動穩定性，使得該任務對雜訊高度敏感，且需要快速的反應動作。所學習的策略展現出對不確定性的強大穩健性，並實現了可靠的零樣本模擬到真實遷移。

小型語言模型的代碼引導推理：評估可執行的MCQA框架
Code-Guided Reasoning for Small Language Models: Evaluating Executable MCQA Scaffolds

May 12

ByPrateek Biswas, Dhaval Patel, Vedant Khandelwal, Shuxin Lin, Amit Sheth

多選問答基準測試通常將小型語言模型（SLMs）評估為直接回答者，但已部署的語言模型系統越來越依賴於外部支架，例如工具、程式碼及重複的模型調用。我們引入程式碼引導推理（Code-Guided Reasoning, CGR），這是一種評估協議與生成的程式資源，用以衡量可執行的推理支架何時能提升SLM在多選問答任務上的表現。CGR標準化了六個組件：標準化的項目介面、直接求解提示、生成器提示、Python支架、求解器調用與提取輔助函式，以及三通道結果記錄。在從本地準備的多選問答組合包與六個元數據註冊的求解器模型中取得的20,498條保留結果行中，觀察到的非零基線分區顯示：宏觀輔助準確率為66.21%，而直接準確率為38.11%，兩者相差+28.10個百分點，成對自助區間為[20.32, 36.43]。在更嚴格的Ab > 30%直接信號閘條件下，宏觀差異縮小為+14.11個百分點。這些估計值屬於描述性統計。輔助推理使用了較大的求解器調用預算，答案提取較為脆弱，Time-MQA中觀察到性能倒退，且部分生成的程式違反了無硬編碼指令。CGR提供了解釋這些結果所需的追蹤套件，包括直接、輔助與生成器端答案、分區定義、生成的程式、回應元數據以及審核。

用於高效長上下文生成的上下文記憶
Context Memorization for Efficient Long Context Generation

May 18

ByYasuyuki Okoshi, Hao Mark Chen, Guanxi Lu, Hongxiang Fan, Masato Motomura, Daichi Fujiki

現代大型語言模型（LLM）應用在推論時，越來越依賴長條件前綴來控制模型行為。雖然前綴增強推論效果顯著，但存在兩個結構性限制：一、前綴的影響力會隨著生成過程遞減；二、對前綴的注意力計算量與其長度呈線性增長。現有方法若非在壓縮前綴的同時仍將其保留在注意力機制中，便是透過梯度式訓練將其內化為模型參數。前者在推論時仍需對前綴進行注意力運算，而後者訓練成本高且不利於前綴更新。為解決這些問題，我們提出「注意力狀態記憶」——一種無需訓練的方法，將前綴外部化為輕量級、基於查找的記憶體，其中儲存前綴與查詢詞元之間預先計算好的注意力狀態。在搭配LLaMA-3.1-8B的ManyICLBench上，我們的方法在1K至8K記憶體預算下，準確率優於情境學習，並在8K時將注意力延遲減少1.36倍；同時在NBA基準測試中，僅使用完整注意力RAG記憶體足跡的20%即超越其表現。

optimize_anything：一個用於優化任何文本參數的通用API
optimize_anything: A Universal API for Optimizing any Text Parameter

May 19

ByLakshya A Agrawal, Donghyun Lee, Shangyin Tan, Wenjie Ma, Karim Elmaaroufi, Rohit Sandadi, Sanjit A. Seshia, Koushik Sen, Dan Klein, Ion Stoica, Joseph E. Gonzalez, Omar Khattab, Alexandros G. Dimakis, Matei Zaharia

一個基於LLM的單一優化系統能否在根本不同的領域中比肩專業工具？我們證明了，當優化問題被表述為改進由評分函數評估的文本產物時，一個支援單任務搜索、跨問題遷移的多任務搜索，以及對未見過輸入進行泛化的單一AI優化系統，可在六個不同任務中達到最先進的結果。我們的系統發現的智能體架構使Gemini Flash的ARC-AGI準確率從32.5%提升至89.5%（幾乎三倍），找到的排程演算法將雲端成本降低40%，生成的CUDA核心中有87%與PyTorch匹配或超越，並在圓堆疊問題（n=26）上超越AlphaEvolve的報告結果。跨三個領域的消融實驗顯示，可操作的輔助資訊比僅提供分數的回饋帶來更快的收斂速度和顯著更高的最終分數；在等量問題預算下，多任務搜索透過跨任務遷移優於獨立優化，且效益隨相關任務數量增加而擴大。我們首次證明，基於LLM搜索的文字優化是一種通用問題求解範式，將傳統上需要特定領域演算法的任務統一在單一架構下。我們在GEPA專案中開源了optimize_anything，支援多種後端，網址為https://github.com/gepa-ai/gepa。

基於編碼器的語言模型中，作者身份信號湧現於何處？
Where Does Authorship Signal Emerge in Encoder-Based Language Models?

May 19

ByFrancis Kulumba, Guillaume Vimont, Laurent Romary, Florian Cafiero

使用相同預訓練編碼器、資料與損失函數進行微調的作者歸因模型，其效能可能僅因評分機制的不同而出現四倍差異。我們運用機械可解釋性工具來解釋此差異。詞長、標點密度與功能詞頻率等風格特徵，在每個模型（包含現成控制編碼器）的每一層中均同樣可用，因此該差異並非源於表徵品質。相反地，因果干預顯示，評分機制決定了編碼器在何處鞏固作者身分訊號：平均池化迫使鞏固發生在早期至中期層，而後期互動則將其延遲至較後層。我們進一步從各評分機制的梯度結構推導出此差異，而訓練動態則揭示了遵循該差異的不同學習軌跡。

ESI-Bench：邁向閉合感知-行動循環的具身空間智能
ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

May 18

ByYining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi

空間智能透過感知-行為迴路展現：智能體透過行動獲取觀測，並推論觀測如何隨行動而變化。它們並非被動處理所見資訊，而是主動探索未見之物——包含遮蔽結構、動態變化、空間包含性及功能性，這些單靠被動感知無法解析。我們突破以往將觀測視為完美資訊的空間智能框架，重新將觀測者定位為行動者。本研究提出 ESI-BENCH，一個基於 OmniGibson、植根於史貝克核心知識系統的全面性體現式空間智能評測基準，涵蓋 10 個任務類別與 29 個子類別。智能體必須決定該調用哪些能力——感知、移動與操作——以及如何依序執行，以主動累積任務相關證據。我們對當前最先進的多模態大語言模型進行廣泛實驗，發現主動探索顯著優於被動對應版本：智能體在無明確指令下自發湧現新興空間策略，而隨機多視角取樣非但未提升訊號，反而在消耗更多影像的同時引入雜訊。大多數失敗並非源於感知薄弱，而是行動盲目：錯誤的行動選擇導致不良觀測，進而引發連鎖錯誤。儘管明確的三維空間表徵能穩定深度敏感任務的推理，但非完美三維表徵因扭曲空間關係，反而比二維基線造成更大傷害。人類研究進一步揭示：與人類尋求反證視角並在矛盾下修正信念不同，模型不問證據品質便過早做出高信心決策，暴露出後設認知鴻溝——這項缺陷無法單靠更佳感知或更多體現互動來彌合。

階段自適應令牌選擇用於高效全模态大語言模型
Stage-adaptive Token Selection for Efficient Omni-modal LLMs

May 19

ByZijie Xin, Jie Yang, Ruixiang Zhao, Tianyi Wang, Fengyun Rao, Jing Lyu, Xirong Li

全模态大語言模型（om-LLMs）透過將視訊與音訊編碼為在視窗層級交錯排列的時序對齊令牌序列，實現統一的音視覺理解。然而，在整個大語言模型中處理這些密集的非文字令牌會產生巨大的計算負擔。雖然免訓練的令牌選擇方法能降低此成本，但現有方法若非僅專注於視覺輸入，就是在進入大語言模型前以固定的每模態比率修剪 om-LLMs 的令牌，未能捕捉跨模態令牌重要性在各層之間的變化。為解決此限制，我們首先分析 om-LLMs 的逐層令牌相依性。我們發現視覺與音訊的相依性呈現區塊式模式，並隨深度漸減，這表示許多深層的非文字令牌在跨模態融合後變得冗餘。受此觀察啟發，我們提出 SEATS，一種免訓練、階段自適應的令牌選擇方法，以實現高效的 om-LLM 推論。在進入大語言模型前，SEATS 透過注意力加權多樣性選擇移除時空冗餘。在大語言模型內部，它逐步在區塊間修剪令牌，並利用查詢相關性分數將保留預算從時間視窗動態分配給各模態。在後期層中，一旦跨模態融合完成，它便移除所有剩餘的非文字令牌。在 Qwen2.5-Omni 與 Qwen3-Omni 上的實驗證明，SEATS 能有效提升推論效率。僅保留 10% 的視覺與音訊令牌，即可實現 9.3 倍的浮點運算次數降低與 4.8 倍的預填充加速，同時維持 96.3% 的原始性能。

回聲強制：一種用於互動式長影片生成的場景記憶框架
Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation

May 15

ByMingqiang Wu, Weilun Feng, Zhefeng Zhang, Haotong Qin, Yuqi Li, Guoxin Fan, Xiaokun Liu, Zhulin An, Libo Huang, Yongjun Xu, Chuanguang Yang

自回归视频扩散模型通过局部注意力与KV缓存支持开放式生成。然而，现有的无需训练的长视频优化方法主要集中于单一提示词下的稳定扩展，难以处理涉及提示词切换、旧场景遗忘与历史场景回忆的交互式场景。我们识别出核心瓶颈在于历史KV状态的功能纠缠：稳定锚点与近期动态由同一缓存策略管理，导致陈旧背景污染、对新提示词响应延迟以及长程记忆丢失。为解决该问题，我们提出Echo-Forcing——一种专为交互式长视频生成设计的无需训练场景记忆框架，包含三项核心机制：(1) 层次化时序记忆，在相对旋转位置编码下解耦稳定锚点、压缩历史与近期窗口；(2) 场景回忆帧，将历史场景压缩为空间结构化的KV表示以支持长程回忆；(3) 差异感知记忆衰减，根据新旧场景间的差异自适应遗忘冲突标记。基于上述设计，Echo-Forcing在有界缓存预算下统一支持平滑过渡、硬切换与长程场景回忆。在VBench-Long上的广泛评估进一步表明，Echo-Forcing在长视频生成与交互式视频生成场景中均取得了最佳整体性能。我们的代码已发布在 https://github.com/mingqiangWu/Echo-Forcing。

使用自我生成資料的中期訓練改善語言模型中的強化學習
Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

May 8

ByAswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

強化學習（RL）在大語言模型（LLMs）中的有效性，取決於RL訓練前及訓練過程中所使用資料的性質與多樣性。尤其是，推理問題通常可透過依賴不同推理形式的多種方法來處理，而訓練資料中若僅接觸有限範圍內的此類方法，可能會限制RL的有效性。基於此，我們探討在RL訓練之前，於中期訓練階段使用多樣化的自行生成資料作為中間步驟。具體而言，我們採用由喬治·波利亞（George Polya）解題方法所引導的引導式資料生成框架，為訓練資料中的每個問題生成多種正確答案的變體，隨後進行微調。我們首先從理論角度探討在此類資料上進行中期訓練如何改善RL，並解釋策略梯度更新如何激勵結合多種方法。接著，我們透過實驗證明了使用我們中期訓練資料初始化的RL訓練模型，在多個數學推理基準測試以及其他分佈外（OOD）任務（如程式碼生成與敘事推理）中，均能取得一致的改善。總體而言，我們的調查研究顯示，語言模型透過自行生成資料學習多種解題方法，有助於後續的RL。

倫理超高速（EHV）：一種可證明確定性、具治理意識的JIT編譯器架構，適用於代理系統
Ethical Hyper-Velocity (EHV): A Provably Deterministic Governance-Aware JIT Compiler Architecture for Agentic Systems

May 18

ByRiddhi Mohan Sharma

隨著自主智能代理系統在受監管的關鍵基礎設施中大規模部署，缺乏基於硬體機制的即時高頻政策更新執行機制，構成了一個根本性的安全缺口。我們提出「倫理超速」（Ethical Hyper-Velocity, EHV），這是一種新穎的架構框架，可在執行階段對AI治理政策進行形式驗證。相較於回溯式審計框架（如ISO/IEC 42001、NIST AI RMF）存在14至30天的延遲，EHV將政策執行點（PEP）遷移至推論管線中，透過「治理感知即時（JIT）編譯器」實現。藉由整合無衝突複製資料類型（CRDT）來同步政策，並在可信執行環境（TEE）中實現基於時段的認證快取，EHV達成了「亞毫秒級形式確定性」（Sub-millisecond Formal Determinism, SMFD）。我們透過TLA+形式驗證證明，在系統有界的運作狀態空間內，不合規的代理動作在計算上不可抵達。我們進一步證明，O(1)執行階段強制力可消除傳統上部署速度與治理完整性之間的取捨，將治理延遲從O(天)降至O(1)。

CopT：連續空間下的對比式在策略思考用於通用及智能體推理
CopT: Contrastive On-Policy Thinking with Continuous Spaces for General and Agentic Reasoning

May 19

ByDachuan Shi, Hanlin Zhu, Xiangchi Yuan, Wanjia Zhao, Kejing Xia, Wen Xiao, Wenke Lee

鏈式思考（CoT）是從大型語言模型（LLM）中引發推理能力的標準方法。然而，常見的CoT範例將思考視為回答的前提，這可能延遲獲得合理答案的時間，甚至在模型能夠在深入思考之前就已辨識出答案時，仍會產生不必要的詞元開銷——此行為稱為表演性推理。本文提出CopT，這是一種重新構建的推理管線，反轉了思考與回答的通常順序。不同於先思考再回答，CopT首先引出一個草稿答案，然後根據其自身草稿答案調用後續的基於當前策略的思考，以進行反思與修正。為了評估草稿答案是否可信，CopT將連續嵌入重新塑造成推論時的對比驗證器。具體而言，它對比模型在離散詞元輸入與連續嵌入輸入下對相同生成詞元的支持度，從而產生一個序列層級的逆向KL估計量，用以評估答案可靠性。我們的分析顯示，在某些假設下，期望估計值等於未解潛在狀態與生成答案詞元之間的互信息，這解釋了為何它能捕捉與答案相關的不確定性，而非潛在狀態中的任意不確定性。當答案被認為不夠可靠時，CopT會執行進一步的基於當前策略的思考，其中第二個KL估計量動態控制草稿答案的可見度，從而保留有用的部分資訊，同時降低被不可靠內容誤導的風險。在數學、程式設計與代理推理任務上，CopT在相當或更高的準確率下，峰值準確率提升最高達23%，詞元使用量減少最高達57%，且無需任何額外訓練。程式碼已於 https://github.com/sdc17/CopT 公開。

編輯精選：通過原子實體分析評估圖像編輯中的抽象意圖
Editor's Choice: Evaluating Abstract Intent in Image Editing through Atomic Entity Analysis

May 14

ByMor Ventura, Roy Hirsch, Yonatan Bitton, Regev Cohen, Roi Reichart

人类天生通过诸如“情绪”之类的抽象概念进行交流。然而，当前的图像编辑基准主要聚焦于明确、字面的指令，致使抽象指令在很大程度上仍是未探索的领域。在本工作中，我们首先形式化定义了抽象图像编辑的概念及其分类体系。为了衡量这一具有挑战性领域中的指令遵循能力，我们提出了实体准则（Entity-Rubrics）框架，该框架将抽象编辑分解为针对各实体的独立评估，并与人类判断实现了高度一致性。依托这一框架，我们贡献了首个专注于跨多样真实场景的抽象图像编辑基准——AbstractEdit。在该数据集上对11个领先模型的评估揭示了一个根本性挑战：标准架构难以在意图保持与内容保真之间取得平衡，常常默认倾向于欠编辑或过编辑。我们的分析表明，推动有意义的改进高度依赖于集成先进的大语言模型文本编码器与迭代思维。展望未来，我们基于实体的范式可超越评估范畴，作为奖励模型使用，使模型能够正确解读抽象沟通，或在测试时的反馈循环中精准定位特定失败。最终，我们希望这项研究能成为通往无缝多模态交互的垫脚石，缩小僵化机器执行与人类自然、开放式沟通方式之间的鸿沟。

語言切換觸發在語言模型中潛在繞道
Language-Switching Triggers Take a Latent Detour Through Language Models

May 18

ByFrancis Kulumba, Wissam Antoun, Théo Lasnier, Benoît Sagot, Djamé Seddah

語言模型中的後門攻擊日益成為安全隱憂，然而觸發序列劫持模型計算的內部機制仍未被充分理解。我們在一個具有80億參數的自迴歸語言模型中，辨識出語言切換後門的底層電路：該後門以三個拉丁詞（共九個token）組成的觸發序列，將英文輸出重新導向為法文。我們將此電路分解為三個階段：(1）早期層的分散式注意力頭將觸發token彙整至序列最後位置；(2）產生的訊號透過模型自然語言身份方向的正交子空間，在中間層傳播；(3）最後一層的MLP將此潛在訊號轉化為法文邏輯值。整個電路流經單一位置的序列瓶頸：破壞該位置任何層的運作，雖能完全抑制觸發，但也會削弱模型能力。這種正交潛在編碼機制顯示，旨在於中間表徵中搜尋語言特徵的防禦方法，將完全無法偵測到此類觸發。

DocAtlas：跨越80多種語言的多語言文檔理解
DocAtlas: Multilingual Document Understanding Across 80+ Languages

May 12

ByAhmed Heakl, Youssef Mohamed, Abdullah Sohail, Rania Elbadry, Ahmed Nassar, Peter W. J. Staar, Fahad Shahbaz Khan, Imran Razzak, Salman Khan

多語言文件理解在低資源語言上仍受限於訓練資料稀缺及基於模型的標註流程，這些流程會延續既有的偏誤。我們提出 DocAtlas 架構，能建構涵蓋 82 種語言及 9 項評估任務的高保真 OCR 資料集與基準。我們的雙重流程——對原生 DOCX 文件進行差異化渲染，以及針對從右至左書寫文字的合成 LaTeX 生成——能在統一的 DocTag 格式中產生精確的結構化標註，該格式編碼版面、文字及元件類型，且核心標註過程無需依賴學習模型。評估 16 個最先進模型後，發現低資源書寫系統仍存在持續的差距。我們證明，使用渲染產生的真實資料作為正向訊號進行直接偏好最佳化（DPO），能實現穩定的多語言適應，在領域內（+1.9%）及領域外（+1.8%）準確率上均有所提升，且未造成可測量的基線語言退化；而有監督微調則使領域外效能下降高達 21%。我們最佳變體 DocAtlas-DeepSeek 在最強基準上提升了 1.7%。

全雙工全模態評估：評估即時雙向全模態互動
Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

May 17

ByChaoqun He, Mingyang Xiang, Yingjing Xu, Bokai Xu, Junbo Cui, Jie Zhou, Yuan Yao, Lijie Wen

即時雙向互動對於在真實場景中運作的多模態AI系統至關重要，此類模型必須持續處理串流輸入並在適當時刻做出回應。然而，現有大多數多模態大型語言模型（MLLMs）多在離線設定下進行評估，即在生成任何回應前先處理完整個影片輸入。儘管近期研究已開始探討即時雙向MLLMs，但此領域仍缺乏全面的基準測試或自動化評估方法。為填補此缺口，我們提出Omni-DuplexEval，一個用於系統性評估即時雙向互動的基準。該基準包含兩個互補場景：（1）即時描述，評估生成持續且時間對齊的回應以追蹤動態多模態輸入的能力；（2）主動提醒，評估辨識顯著事件並在適當時刻回應的能力。Omni-DuplexEval包含660支影片，附有精細的人工標註標籤與精確的時間元數據，涵蓋9項基於真實場景的任務，所有問題皆以開放式提問形式呈現。我們進一步引入基於LLM-as-a-Judge（以大型語言模型作為評審）的自動化評估框架，透過時間戳感知與序列推理共同評估回應內容的對齊程度與回應時機，從而實現系統性評估，並與人類判斷高度一致。對最新雙向MLLMs的實驗揭示了其顯著局限性。表現最佳的模型總體得分僅為39.6%，而在主動提醒項目中僅得20.0%。我們的分析指出了兩項關鍵挑戰：模型難以在及時回應與連貫全面的內容生成之間取得平衡，並且常無法決定何時回應以及該產生何種內容。我們期望此項工作能促進MLLMs領域的進一步發展。

為什麼推理模型會失去覆蓋範圍？數據與路徑分岔的角色
Why Do Reasoning Models Lose Coverage? The Role of Data and Forks in the Road

May 16

ByNgoc-Hieu Nguyen, Parshin Shojaee, Phuc Minh Nguyen, Nan Zhang, Chandan K Reddy, Khoa D Doan, Rui Zhang

大型語言模型的近期進展催生了推理模型的出現，這些模型透過專門的微調程序，在複雜任務上展現出強大效能。儘管這些方法能可靠地提升pass@1準確率，但先前研究觀察到它們出現覆蓋率收縮行為，即相對於基礎模型，pass@k表現有所下降。本文探討基於SFT的後訓練過程中推理收縮的成因。我們假設此行為源於微調數據的特性，特別是與「決策點」或「道路叉口」情境相關，在這些情境中，模型面對難以辨識的模式且存在多種有效的推理路徑。為驗證此假設，我們設計了受控案例研究，模擬此類決策點設定，涵蓋圖形分支中的難以辨識節點以及推理模式。透過追蹤這些設定下的後訓練動態，我們發現收縮現象與訓練數據中決策點情境的普遍性密切相關。我們也證明，透過針對性的決策點數據合成設計，以及更具系統性的鼓勵多樣性的解碼機制，可部分緩解此收縮行為。我們的研究結果指出，以數據為中心的因素是推理模型收縮的關鍵驅動力，並強調多樣性感知設計是控制此現象的有效槓桿。

Bug還是Feature平方：權重漂移、激活稀疏性與尖峰
Bug or Feature^2: Weight Drift, Activation Sparsity, and Spikes

May 17

ByEgor Shvetsov, Aleksandr Serkov, Shokorov Viacheslav, Redko Dmitry, Vladislav Goloshchapov, Evgeny Burnaev

現代神經架構的設計經由漸進式經驗選擇趨於收斂，然而主導其訓練動態的機制仍僅部分明確。我們識別並分析由標準損失函數與正偏啟動函數交互作用所誘發的負權重漂移現象。我們證明，在均方誤差或交叉熵損失下，初始化時正預啟動值對應的梯度期望值非負，導致早期訓練中下游權重朝負值偏移。此漂移本質上源自最佳化過程而非數據，並跨越多種架構（多層感知機、殘差網路、視覺Transformer、GPT-nano、MP-SENe）及非對稱啟動函數（ReLU、GELU、SiLU）持續存在。與ReLU結合時，權重漂移在GPT-nano中產生的激活稀疏性高達90%。我們針對79種配置刻劃稀疏性與準確率的權衡關係，並識別出當激活稀疏度超過70%時出現的急遽準確率懸崖。雖ReLU²在GPT-nano中達到優良的稀疏性-準確率比，但會病態放大中間Transformer層中所識別的激活尖峰。裁剪可解決此問題，同時保留平方運算的表示優勢：裁剪版ReLU²優於其未裁剪版本，而GELU²在GPT-nano上達成最低驗證損失。程式碼請參閱 https://github.com/On-Point-RND/BugOrFeature。

溫柔重寫：通過重寫的良性投影防禦LLM數據投毒攻擊
Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks

May 18

ByJohn T. Halloran, Noopur S. Bhatt

大型語言模型（LLMs）極易受到後門攻擊（BAs）的影響，此類攻擊透過使用基於觸發器的有害內容對訓練樣本進行污染。此外，現有的防禦方法在經過廣泛的後門攻擊模式測試後，已被證實效果有限。為了更有效地對抗後門攻擊，我們探討了利用LLM改寫作為一種主動防禦資料投毒的方法。首先，我們從理論上證明，當LLM改寫採用開放式良性樣本——即所謂的開放式良性改寫（OBBR）——時，改寫輸出為良性的機率嚴格大於封閉式改寫。因此，OBBR透過將訓練樣本映射至良性提示的空間，從而中和有害內容。接著，我們證明，與先前的防禦方法相比，OBBR能有效緩解大量現有的後門攻擊：在五種已知後門攻擊與四種廣泛使用的LLM中，相較於最先進的後門攻擊防禦，OBBR使安全性能平均提升51%；相較於封閉式改寫方法，則平均提升25.7%。最後，我們證明OBBR在計算上相較於其他後門攻擊防禦更具效率，微調後不會降低模型在自然語言任務上的表現，並且能夠防禦非基於觸發器的資料投毒攻擊。

基礎模型在AI檢測器眼中看似人類
Base Models Look Human To AI Detectors

May 19

ByYixuan Even Xu, Ziqian Zhong, Aditi Raghunathan, Fei Fang, J. Zico Kolter

隨著AI生成文本大規模進入現實世界，各機構——尤其在教育與學術誠信工作流程中——日益採用商用AI文本檢測器。我們報告一項關於此類系統的意外實證發現：經GPTZero與Pangram評估時，基礎模型所生成的文本往往被高度判定為人類所寫，而其經指令調校的對應模型所生成的文本則不然。基於此觀察，我們提出「迭代改寫人本化」（Humanization by Iterative Paraphrasing, HIP），這是一種無關檢測器的流程，能將基礎模型微調為改寫器，並反覆應用。與我們測試的基準方法相比，HIP在商用檢測器上取得更佳的語意保留與規避檢測之間的權衡。在Llama-3與Qwen-3系列中，涵蓋0.6B至70B的模型規模，HIP持續提升檢測器對人寫相似度的判斷。我們的發現表明，當前檢測器所追蹤的更多是指令調校與局部語境的痕跡，而非任何關於機器生成文本的不變概念。這進而呼籲檢測器的設計應更明確地對這些因素進行建模。

電腦科學會議應要求不可否認的實驗結果
Computer Science Conferences Should Require Nonrepudiable Experimental Results

May 9

ByMamadou K. Keita, Christopher Homan

本立場論文主張，計算機科學會議應要求提供具防篡改且不可否認的實驗結果證明。我們將此根本問題命名為「實驗不可否認性」：一套合規協議必須將論文中的數據與實際執行的計算緊密綁定，使作者事後無法篡改或否認。現行體系依賴於自我申報檢查清單、選擇性程式碼共享以及作者控制的日誌紀錄，但這些機制均無法回答審稿人無法親自驗證的問題：論文所述程式碼是否確實產出了報告中的數字？我們正式定義此問題，闡明任何合規協議必須滿足的安全屬性，並描述當前方法未能防範的威脅模型。為證明該問題可解，我們以 Go 語言實作了參考系統 K-Veritas，該系統無需存取訓練資料即可產出簽署報告。K-Veritas 僅為測試平台，並非最終解答。我們呼籲各會議及學術社群將不可否認性視為首要要求，並協力建立開放、獨立的標準。

S-Bus：面向多智能体大语言模型状态协调的自动读集合重构方法
S-Bus: Automatic Read-Set Reconstruction for Multi-Agent LLM State Coordination

May 16

BySajjad Khan

並行的LLM代理共享可變的自然語言狀態會產生結構競爭條件：寫-寫衝突和跨分片過時讀取衝突會悄悄破壞代理輸出。現有的多代理框架（LangGraph、CrewAI、AutoGen）對共享狀態缺乏寫所有權語義。我們提出S-Bus，這是一個HTTP中介軟體，其核心機制是伺服器端的DeliveryLog：每個代理的HTTP GET操作日誌，能在提交時自動重建每個代理的讀取集，無需在HTTP/1.1下修改代理SDK。DeliveryLog提供的一致性屬性——可觀察讀取隔離（ORI），一種對HTTP可觀察投影讀取集的部分因果一致性——能防止代理通過共享分片協作時的結構競爭條件。我們有三項貢獻：(C1) DeliveryLog機制實現了基於HTTP流量的自動讀取集重建，並提供三層機械化證據：在TLAPS中（除一個保留的類型公理外）經機器驗證的ReadSetSoundness和ORICommitSafety；N=3時詳盡的TLC模型檢測（20,763,484個不同狀態，零違規）；Dafny證明了9個歸納可靠性引理。(C2) 在427,308次主動HTTP-409衝突的共享分片競爭掃描中，實證顯示與PostgreSQL 17 SERIALIZABLE和Redis 7 WATCH/MULTI相比，結構衝突預防效果相同：三個後端均無第一類錯誤。(C3) ORI的操作範圍取決於拓撲：在專用分片工作負載中語義中立；在單分片協作寫入中有害，因為保留機制會傳播並存的矛盾。源碼：https://github.com/sajjadanwar0/sbus

SAGA：一種用於多時域機率預測且結合自適應時間共形預測的序列自適應生成架構
SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

May 18

ByGustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert

財政部與中央銀行所使用的微觀模擬模型，依賴於僅捕捉條件分配第一及第二動差、且無法體現長期非線性結構的參數化終身收入過程。我們提出SAGA——一種專為不規則表格面板序列設計的僅解碼器變換器模型，並搭配分割共形校準包裝器，可提供具有有限樣本邊際覆蓋保證的個體層級預測區間。該模型以1990年至2022年間瑞典LISA縱向登記資料（包含2,143,817名個體及61,284,903人年）進行訓練，可預測未來一至三十年的年度勞動收入，並透過蒙地卡羅方法將其加總為現值折現後的終身收入分配。相較於Guvenen、Karahan、Ozkan及Song所提出的典型參數化過程，以及表格型與遞歸型基準模型，SAGA在十年期預測中將連續排名概率得分降低31.9%，在二十年期預測中將平均絕對誤差降低37.7%。共形區間的邊際名義覆蓋率誤差在0.4個百分點以內，在最差情況的人口統計亞群中則在2.4個百分點以內。重建的終身收入基尼係數為0.327，而部分觀測的真實值為0.341，GKOS估計值為0.378。模型權重、校準表格及合成等效數據集均已釋出，以便在受保護的SCB MONA環境之外進行複製。

RoPE 在長上下文中既不區分位置也不區分標記，此為可證明的。
RoPE Distinguishes Neither Positions Nor Tokens in Long Contexts, Provably

May 15

ByYufeng Du, Phillip Harris, Minyang Tian, Eliu A Huerta, Srikanth Ronanki, Subendhu Rongali, Aram Galstyan, Hao Peng

我們辨識出基於Transformer的長上下文語言模型中旋轉位置編碼(RoPE)的內在侷限。我們的理論分析抽象化了上下文的具體內容，僅依賴其長度。我們證明，隨著上下文長度增加，基於RoPE的注意力機制變得不可預測，並喪失了對其有效性至關重要的兩項特性。首先，它失去了局部性偏誤：RoPE不再傾向於偏好較近的位置而非較遠的位置。其次，它失去了標記相關性的一致性：一個關鍵向量在某個位置上獲得比另一個向量更高的注意力分數，但在另一個位置上可能獲得較低的分數。在這兩種情況下，失敗的機率接近0.5，僅比隨機猜測好一些。我們進一步證明，當一個關鍵標記被移動到不同位置，甚至被替換為另一個標記時，注意力分數可能保持不變，這顯示出無法區分位置或標記。調整RoPE的基底需要在區分位置與區分標記之間進行取捨，但無法同時保留兩者。增加RoPE基底超參數（這是當今長上下文模型的常見做法）有助於區分不同標記，但無可避免地犧牲了區分位置的能力。我們的實證分析顯示，多頭、多層架構不足以克服這些侷限。我們的研究結果表明，未來的Transformer長上下文語言模型可能需要從根本上設計新的機制來編碼位置與標記順序。