HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

49 papers found

迷失於故事之中：大型語言模型在長篇故事生成中的一致性錯誤
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Mar 6

ByJunjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie

當故事講述者遺忘了自身的故事，會發生什麼？大型語言模型如今已能生成數萬字的敘事，卻往往難以維持整體一致性。在創作長篇故事時，這些模型可能與其已設定的情節事實、角色特質和世界觀規則產生矛盾。現有的故事生成評測基準主要關注情節品質與流暢度，對一致性錯誤的探討尚屬空白。為此，我們提出ConStory-Bench——專為評估長篇故事生成中敘事一致性而設計的基準框架。該框架包含四類任務場景下的2000個提示詞，並定義了5大錯誤類別與19個細分錯誤類型的分類體系。我們同時開發了ConStory-Checker自動化檢測流程，能識別矛盾並將每個判斷錨定於明確的文本證據。透過五個研究問題對多種大型語言模型進行評估，我們發現一致性錯誤呈現明顯規律：最常出現於事實與時間維度，高發於敘事中段，集中於詞元層級熵值較高的文本片段，且特定錯誤類型存在共現傾向。這些發現可為未來提升長篇敘事一致性的研究提供指引。項目頁面請訪問：https://picrew.github.io/constory-bench.github.io/。

Holi-Spatial：將影片流轉化為全息3D空間智能
Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Mar 8

ByYuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong

對空間智能的追求根本上依賴於大規模、細粒度的3D數據。然而，現有方法主要通過從少量人工標註數據集生成問答對來構建空間理解基準，而非從原始網絡數據中系統性地標註新的大規模3D場景。這導致其可擴展性嚴重受限，且模型性能進一步受制於這些狹窄精選數據集中固有的領域差異。本研究提出首個全自動化、大規模、具空間感知的多模態數據集Holi-Spatial。該數據集通過提出的數據構建流程，無需人工干預即可從原始視頻輸入生成，支持從帶有渲染深度圖的幾何精確3D高斯潑濺重建，到物件層級與關係性語義標註的多層級空間監督，並包含對應的空間問答對。基於系統化原則構建的流程，我們進一步創建了首個大規模高質量3D語義數據集Holi-Spatial-4M，包含1.2萬個優化後的3D高斯潑濺場景、130萬個2D遮罩、32萬個3D邊界框、32萬個實例描述、120萬個3D定位實例，以及涵蓋多樣化幾何、關係與語義推理任務的120萬組空間問答對。 Holi-Spatial在數據構建質量上展現卓越性能，於ScanNet、ScanNet++和DL3DV等數據集上顯著超越現有前饋式與單場景優化方法。此外，使用該數據集對視覺語言模型進行空間推理任務的微調，亦使模型性能獲得顯著提升。

LoGeR：基於混合記憶的長上下文幾何重建
LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Mar 3

ByJunyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun

前饋式幾何基礎模型在短時序視窗重建方面表現優異，但將其擴展至分鐘級長視頻時，會受制於二次方注意力複雜度或循環設計中有限的記憶體效率。我們提出LoGeR（長時序幾何重建）架構，該創新模型無需後續優化即可實現極長序列的稠密三維重建。LoGeR採用分塊處理視頻流，利用強雙向先驗進行高保真度的塊內推理。為解決跨塊連貫性這一關鍵挑戰，我們設計了基於學習的混合記憶模組：該雙組件系統結合參數化測試時訓練記憶體來錨定全局座標系並防止尺度漂移，同時配備非參數化滑動視窗注意力機制以保留未壓縮上下文，實現高精度相鄰對齊。值得注意的是，此記憶架構使LoGeR僅需在128幀序列上訓練，即可在推理時泛化至數千幀長度。在標準基準測試及我們重新構建的VBR數據集（包含最長達1.9萬幀序列）上的評估顯示，LoGeR顯著超越現有頂級前饋方法——在KITTI數據集上將絕對軌跡誤差降低逾74%——並在空前時長範圍內實現了魯棒的全局一致重建。

無監督強化學習價值回饋能將大型語言模型訓練擴展到何種程度？
How Far Can Unsupervised RLVR Scale LLM Training?

Mar 9

ByBingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding

無監督強化學習與可驗證獎勵（URLVR）通過在無需真實標籤的情況下推導獎勵，為突破大規模語言模型訓練的監督瓶頸提供了可行路徑。近期研究利用模型內在信號已展現出早期潛力，但其發展前景與局限性仍不明朗。本研究重新審視URLVR框架，從分類體系、理論基礎到大量實驗進行了全面分析。我們首先根據獎勵來源將URLVR方法分為內在型與外部型，進而建立統一理論框架，揭示所有內在方法實質上都趨向於銳化模型的初始分佈——當初始置信度與正確性一致時，該銳化機制可成功運作；而當兩者錯位時則會引發災難性失敗。通過系統性實驗，我們發現內在獎勵在不同方法中均呈現先升後降的規律，其崩潰時機取決於模型先驗而非工程優化策略。儘管存在這些擴展限制，我們發現內在獎勵在小數據集上的測試時訓練中仍具價值，並提出「模型崩潰步數」作為衡量模型先驗的指標，為強化學習可訓練性提供實踐依據。最後，我們探索了基於計算不對稱性進行驗證的外部獎勵方法，初步證據表明其或能突破置信度-正確性的天花板。本研究既劃定了內在URLVR的能力邊界，也為構建可擴展替代方案指明了方向。

相信你的模型：分佈引導的置信度校準
Believe Your Model: Distribution-Guided Confidence Calibration

Mar 4

ByXizhong Yang, Haotian Zhang, Huiming Wang, Mofei Song

隨著測試時擴展技術的進步，大型推理模型展現出卓越的性能，該技術通過生成多個候選回應並選擇最可靠的答案來提升預測準確性。雖然先前研究分析指出，置信度分數等內部模型信號能部分反映回應正確性，並與準確率存在分佈關聯性，但這類分佈信息尚未被充分運用於指導答案選擇。基於此動機，我們提出DistriVoting方法，在投票過程中將分佈先驗作為置信度之外的輔助信號。具體而言，我們的方法（1）首先使用高斯混合模型將混合置信度分佈分解為正負樣本分量，（2）隨後基於分量中的正負樣本應用拒絕過濾器，以減緩兩類分佈的重疊現象。此外，為從分佈本身進一步緩解重疊問題，我們提出SelfStepConf技術，利用步驟級置信度動態調整推理過程，增強兩類分佈的分離度以提升投票中置信度的可靠性。在16個模型與5個基準測試上的實驗表明，我們的方法顯著優於現有最先進技術。

CoCo：以程式碼作為思維鏈的文本到圖像預覽與稀有概念生成技術
CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Mar 9

ByHaodong Li, Chunmei Qing, Huanyu Zhang, Dongzhi Jiang, Yihang Zou, Hongbo Peng, Dingming Li, Yuhong Dai, ZePeng Lin, Juanxi Tian, Yi Zhou, Siqi Dai, Jingwei Wu

近期統一多模態模型的發展顯著推進了文字到圖像生成技術，特別是通過整合思維鏈推理機制。然而，現有基於思維鏈的文本生成圖像方法主要依賴抽象的自然語言規劃，難以精確處理複雜的空間佈局、結構化視覺元素與密集文本內容。本研究提出代碼驅動推理框架CoCo（代碼即思維鏈），將推理過程表示為可執行程式碼，實現可明確驗證的中間規劃環節。給定文本提示後，CoCo首先生成指定場景結構佈局的可執行程式碼，在沙盒環境中執行後生成確定性草圖，隨後通過細粒度圖像編輯進行優化，最終輸出高擬真度結果。為支持此訓練範式，我們構建了包含萬級結構化草圖-成品圖像對的CoCo-10K數據集，用於指導結構化草圖構建與視覺校正優化。在StructT2IBench、OneIG-Bench和LongText-Bench上的實驗表明，CoCo相比直接生成方法分別提升68.83%、54.8%和41.23%，同時優於其他思維鏈增強生成方法。這些結果證明可執行程式碼能作為精確、可控、結構化文本生成圖像的有效推理範式。項目代碼已開源於：https://github.com/micky-li-hd/CoCo

CARE-Edit：基於條件感知的專家路由機制用於上下文圖像編輯
CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Mar 9

ByYucheng Wang, Zedong Wang, Yuetong Wu, Yue Ma, Dan Xu

統一擴散編輯器通常依賴固定的共享骨幹網絡處理多樣任務，存在任務干擾與異質需求適應性不足的問題（例如局部與全局編輯、語義與光度調整）。現行主流的ControlNet與OmniControl變體通過靜態拼接或加法適配器融合多種條件信號（如文本、遮罩、參考圖），但無法動態調控衝突模態的優先級，導致跨遮罩邊界的色彩滲透、身份或風格漂移，以及多條件輸入下的不可控行為。為此，我們提出條件感知專家路由機制（CARE-Edit），將模型計算與特定編輯能力精準對齊。其核心在於通過輕量級潛在注意力路由器，根據多模態條件與擴散時間步將編碼後的擴散標記分配至四個專項專家模塊——文本、遮罩、參考圖與基礎模型：（i）遮罩重繪模塊首先優化用戶定義的粗糙遮罩以提供精確空間引導；（ii）路由器採用稀疏Top-K選擇機制動態分配計算資源至最相關專家；（iii）潛在混合模塊隨後融合專家輸出，將語義、空間與風格信息連貫整合至基礎圖像。實驗驗證CARE-Edit在上下文編輯任務（包括擦除、替換、文本驅動編輯與風格遷移）中的卓越表現。實證分析進一步揭示了專項專家的任務特異性行為，彰顯動態條件感知處理對於緩解多條件衝突的關鍵作用。

HiAR：基於分層去噪的高效自迴歸長影片生成技術
HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Mar 9

ByKai Zou, Dian Zheng, Hongbo Liu, Tiankai Hang, Bin Liu, Nenghai Yu

自回歸擴散模型為生成理論上無限長度的影片提供了一個前景廣闊的框架。然而，其主要挑戰在於維持時間連續性的同時，避免因誤差累積導致的漸進性畫質退化。為確保連續性，現有方法通常依賴高度去噪的上下文；但這種做法會以高置信度傳播預測誤差，從而加劇退化。本文論證了極度清晰的上下文並非必要條件。受雙向擴散模型的啟發（該模型在共享噪聲水平下對影格去噪的同時保持連貫性），我們提出在與當前區塊相同噪聲水平上對上下文進行條件化，既能為時間一致性提供足夠訊號，又可有效抑制誤差傳播。基於此洞見，我們提出HiAR——一種層次化去噪框架，其顛覆了傳統生成順序：並非順序完成每個區塊，而是在每個去噪步驟中對所有區塊執行因果生成，使每個區塊始終處於相同噪聲水平的上下文條件下。這種層次結構天然支持流水線並行推理，在我們的4步設定中實現了1.8倍的實時加速。我們進一步觀察到，該範式下的自展開蒸餾會放大模式尋求型反向KL目標固有的低運動捷徑。為抵消此現象，我們引入雙向注意力模式下的正向KL正則化器，在不干擾蒸餾損失的前提下，為因果推理保留運動多樣性。在VBench（20秒生成）測試中，HiAR在所有對比方法中獲得最高綜合評分與最低的時間漂移值。

\$OneMillion-Bench：语言智能体距离人类专家还有多远？
\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Mar 9

ByQianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

随着语言模型从聊天助手演变为能够进行多步骤推理和工具使用的长程智能体，现有基准测试大多仍局限于结构化或应试型任务，难以满足真实世界的专业需求。为此，我们推出百万基准（OneMillion-Bench），这一涵盖法律、金融、工业、医疗保健与自然科学五大领域的专家级测试集包含400项任务，旨在评估智能体在经济决策场景中的表现。与既往研究不同，该基准要求智能体检索权威信源、解决证据冲突、运用领域特定规则并做出约束性决策，其正确性既取决于最终答案也关乎推理过程。我们采用基于量规的评估方案，从事实准确性、逻辑连贯性、实践可行性与专业合规性四个维度进行评分，聚焦专家级问题以确保对不同智能体的有效区分。百万基准为评估领域密集型场景中智能体的可靠性、专业深度与实践准备度提供了统一测试平台。

NLE：基于转录文本编辑的非自回归大型语言模型语音识别
NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Mar 9

ByAvihu Dekel, Samuel Thomas, Takashi Fukada, George Saon

虽然基于自回归（AR）大语言模型的语音识别系统具有较高准确率，但其序列化解码方式限制了并行性并导致高延迟。我们提出NLE这一非自回归（NAR）方法，将语音识别定义为条件式文本编辑任务，实现完全并行预测。NLE从预训练语音编码器中提取声学嵌入和初始假设文本，随后通过采用潜在对齐目标训练的双向LLM编辑器进行文本优化。通过交错填充策略利用Transformer的恒等映射偏置特性，使模型专注于修正而非完整重构。在Open ASR评测平台上，NLE++以1630的RTFx（实时因子倒数）实现5.67%的平均词错误率。在单语句场景下，NLE相较AR基线实现27倍加速，展现出实时应用的潜力。

AutoResearch-RL：面向自主神经架构发现的永续自评估强化学习智能体
AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Mar 7

ByNilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI

我们提出AutoResearch-RL框架：该框架中的强化学习智能体能够在无人监督的情况下，自主开展开放式神经网络架构与超参数研究，持续运行直至终止判定器发出收敛信号或资源耗尽。在每一步迭代中，智能体会对目标训练脚本提出代码修改方案，在固定的挂钟时间预算内执行修改，观察基于验证集字节熵（val-bpb）生成的标量奖励，并通过近端策略优化（PPO）更新其策略。该设计的核心洞见在于三方面关注点的分离：（一）冻结环境（数据管道、评估协议与常量）确保实验间可比性；（二）可变目标文件（train.py）作为智能体的可编辑状态载体；（三）元学习器（即强化学习智能体本身）持续积累实验轨迹，并据此指导后续提案。我们将该框架形式化为马尔可夫决策过程，在温和假设下推导出收敛保证，并基于单GPU纳米聊天模型预训练基准进行实证验证。实验表明，经过约300次夜间迭代后，AutoResearch-RL发现的配置方案达到或超越了人工调优基线水平，且全程无需人工干预。

扩展智能体能力而非语境：面向大型工具空间的高效强化微调
Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Mar 5

ByKaran Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah

在大型工具生态系统中运作的智能体系统，必须在弱监督或不可验证的监督下规划并执行长周期工作流。尽管前沿模型通过规模优势和庞大上下文预算缓解了这些挑战，但小参数语言模型（SLM）仍显脆弱：急切加载工具会导致上下文饱和，执行错误会随时间累积，稀疏奖励也限制了学习效率。我们提出ATLAS——一个强化微调框架，通过让SLM学习如何获取上下文及执行动作，使其能在大规模工具空间环境中高效运作。本方法有两个核心贡献：首先，我们将上下文控制与执行结构转化为可学习的决策，结合迭代式工具加载与程序化工具编排，以限制上下文增长并稳定长周期任务轨迹；其次，我们提出基于量规的强化微调，将任务成功分解为结构化、与任务对齐的评估标准，并利用小型评判模型实现可扩展训练。在MCP基准测试中，这些设计选择相较通用强化学习基线实现了显著且稳定的性能提升，使40亿参数的SLM在更严格的参数和上下文预算下接近前沿智能体的表现。

尺度空间扩散
Scale Space Diffusion

Mar 9

BySoumik Mukhopadhyay, Prateksha Udhayanan, Abhinav Shrivastava

扩散模型通过噪声使图像退化，而逆转这一过程可揭示跨时间步的信息层级结构。尺度空间理论则通过低通滤波展现出类似的层级特性。我们正式建立了这种关联，并证明高度噪声化的扩散状态所包含的信息量不超过小型下采样图像——这引发了一个疑问：为何必须对它们进行全分辨率处理？为解决此问题，我们通过构建具有广义线性退化特性及实用实现方案的扩散模型家族，将尺度空间融合到扩散过程中。采用下采样作为退化方法催生了我们提出的尺度空间扩散模型。为支持该模型，我们引入Flexi-UNet——一种仅使用网络必要部分即可实现分辨率保持与分辨率提升去噪的UNet变体。我们在CelebA和ImageNet数据集上评估该框架，并分析其跨分辨率与网络深度的缩放特性。项目网站(https://prateksha.github.io/projects/scale-space-diffusion/)已公开可用。

PIRA-Bench：从反应式GUI智能体向基于GUI的主动意图推荐智能体的演进
PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Mar 9

ByYuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li

当前图形用户界面（GUI）智能体主要运行于被动响应模式：用户必须提供明确指令才能驱动智能体执行任务。然而，真正智能的AI助手应当具备主动性，能够直接从持续视觉输入（如移动端或桌面端屏幕截图）中预测用户意图，并在无明确提示时提供适时建议。向这种主动式范式的转型面临重大挑战：现实屏幕活动很少呈线性发展，而是由充满噪声浏览、无意义操作和多线程任务切换的长周期轨迹构成。为弥补这一鸿沟，我们推出PIRA-Bench（主动意图推荐智能体基准），这是一个基于连续弱监督视觉输入评估多模态大语言模型（MLLMs）的新型基准。与被动响应数据集不同，PIRA-Bench包含具有多重交织意图的复杂轨迹、带有噪声的片段以及多样化的用户画像上下文，要求智能体在适应用户偏好的同时检测可操作事件。此外，我们提出PIRF基线框架——一种具备记忆感知能力的状态追踪框架，可使通用MLLMs管理多任务线程并处理具有误导性的视觉输入。PIRA-Bench为构建鲁棒的主动式GUI个人助手迈出了重要一步。

主体性批判训练
Agentic Critical Training

Mar 9

ByWeize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang

訓練大型語言模型作為自主智能體時，通常從模仿學習開始，但這種方法僅教會智能體如何行動卻未理解行動背後的動因：智能體從未將成功行動與次優選項進行對比，因而缺乏對行動質量的認知。近期研究嘗試通過引入專家行動與替代行動對比產生的自我反思監督來解決此問題。然而其訓練範式本質上仍是模仿學習：模型僅模仿預先構建的反思文本，而非學會自主推理。我們提出能動性批判訓練（ACT），這是一種強化學習範式，通過訓練智能體在替代選項中識別更優行動，根據模型判斷是否正確給予獎勵，促使模型自主發展出行動質量的推理能力，實現真正的自我反思而非簡單模仿。在三個具挑戰性的智能體基準測試中，ACT與不同後訓練方法結合時均能持續提升智能體性能，相比模仿學習平均提升5.07個百分點，相比強化學習平均提升4.62個百分點。與通過知識蒸餾注入反思能力的方法相比，ACT也展現出明顯優勢，平均提升達2.42個百分點。此外，ACT在智能體基準測試中展現出強大的分佈外泛化能力，並在未使用任何推理專用訓練數據的情況下，提升通用推理基準的表現，凸顯了本方法的價值。這些結果表明，ACT是開發更具反思性和能力的大型語言模型智能體的有效路徑。

无需训练的注意力恢复型潜在帧间剪枝
Training-free Latent Inter-Frame Pruning with Attention Recovery

Mar 6

ByDennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu

当前视频生成模型存在计算延迟高的问题，导致实时应用成本极其昂贵。本文通过利用视频潜在块中固有的时间冗余性来解决这一局限。我们提出具有注意力恢复机制的潜在帧间剪枝框架（LIPAR），该框架能检测并跳过重复潜在块的重计算过程。此外，我们引入了一种新颖的注意力恢复机制，可近似还原被剪枝标记的注意力值，从而消除直接应用剪枝方法所产生的视觉伪影。实验表明，本方法将视频编辑吞吐量提升1.45倍，在NVIDIA A6000上平均达到12.2 FPS，而基线方法仅为8.4 FPS。所提方法在保持生成质量的同时，无需额外训练即可与模型无缝集成。我们的研究有效弥合了传统压缩算法与现代生成流程之间的鸿沟。

金融数据价值解锁：基于蒸馏与难度感知训练的研究
Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Mar 7

ByChuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu

大型语言模型（LLMs）虽已展现出强大的通用能力，但由于金融领域存在密集的专业术语、严格的数值推理要求以及对事实错误的低容忍度，其实际部署仍面临挑战。我们通过受控实证研究表明，在专业垂直领域中，模型性能主要取决于训练后数据的质量及难度/可验证性特征。本文提出ODA-Fin-SFT-318k数据集（通过多阶段蒸馏验证构建的高质量思维链监督数据）和ODA-Fin-RL-12k数据集（针对平衡奖励精度与任务多样性的高难度可验证任务精心设计）。采用标准监督微调（SFT）与强化学习（RL）流程，我们证明：高质量思维链蒸馏能为SFT阶段奠定坚实基础，而基于难度与可验证性的采样策略可提升RL的泛化能力。在涵盖通用金融任务、情感分析和数值推理的九项基准测试中，我们的ODA-Fin-RL-8B模型持续超越同规模开源金融LLM的最先进水平。我们公开ODA-Fin-SFT-318k与ODA-Fin-RL-12k数据集及训练模型，以推动以数据为中心的金融AI研究发展。

TDM-R1：利用不可微奖励增强少步扩散模型
TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Mar 8

ByYihong Luo, Tianyang Hu, Weijian Luo, Jing Tang

尽管少步数生成模型已能以显著更低的成本实现强大的图像与视频生成，适用于少步数模型的通用强化学习（RL）范式仍是一个悬而未决的难题。现有针对少步数扩散模型的强化学习方法严重依赖对可微分奖励模型的反向传播，从而排除了大多数重要的现实世界奖励信号（例如人类二元喜好度、物体数量等不可微分奖励）。为有效整合不可微分奖励以优化少步数生成模型，我们提出了TDM-R1——一种基于领先少步数模型“轨迹分布匹配（TDM）”的新型强化学习范式。TDM-R1将学习过程解耦为代理奖励学习与生成器学习两个阶段，并开发了实用方法以获取TDM确定性生成轨迹上的逐步奖励信号，最终形成统一的RL后训练方法，显著提升少步数模型处理通用奖励的能力。我们在文本渲染、视觉质量与偏好对齐等多个维度开展了广泛实验，所有结果均表明TDM-R1是少步数文生图模型的强大强化学习范式，在领域内及领域外指标上均达到最先进的强化学习性能。此外，TDM-R1还能有效适配近期强大的Z-Image模型，仅用4次网络函数评估（NFE）即可持续超越其100-NFE版本及少步数变体。项目页面：https://github.com/Luo-Yihong/TDM-R1

概念引导微调：引导视觉Transformer远离伪相关以提升鲁棒性
Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Mar 9

ByYehonatan Elisha, Oren Barkan, Noam Koenigstein

視覺Transformer（ViT）在分佈偏移下性能退化，主要源於其依賴於虛假相關性（如背景線索）而非語義特徵。現有正則化方法通常基於簡單的前景-背景掩碼，難以捕捉定義物體的細粒度語義概念（例如「鳥類」的「長喙」和「翅膀」），導致對分佈偏移的魯棒性有限。為解決此問題，我們提出一種新穎的微調框架，將模型推理引導至概念層級的語義理解。該方法通過優化模型內部相關性映射，使其與空間錨定的概念掩碼對齊。這些掩碼無需人工標註即可自動生成：首先使用基於大語言模型的無標籤方法提出類別相關概念，再通過視覺語言模型進行分割。微調目標旨在使相關性映射與概念區域對齊，同時抑制對虛假背景區域的關注。值得注意的是，該過程僅需少量圖像且使用半數數據集類別。在五個分佈外基準測試上的大量實驗表明，本方法能提升多種ViT模型的魯棒性。此外，我們發現生成的相關性映射與語義物體部件呈現更強一致性，為構建更魯棒、可解釋的視覺模型提供了可擴展路徑。最後，我們驗證了概念引導的掩碼相較傳統分割圖能為模型魯棒性提供更有效的監督，支持了我們的核心假設。

从窄化视野到全景洞察：注意力引导的冷启动重塑多模态推理
From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Mar 4

ByRuilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang

冷启动初始化阶段在训练多模态大型推理模型（MLRMs）中具有关键作用，但其机制尚未得到充分理解。为分析该阶段，我们提出视觉注意力分数（VAS）——一种基于注意力的度量指标，用于量化模型对视觉标记的关注程度。研究发现推理性能与VAS呈强相关性（r=0.9616）：VAS越高的模型在多模态推理任务中表现越出色。令人惊讶的是，多模态冷启动未能提升VAS，其注意力分布与基础模型相近；而纯文本冷启动则能显著提高VAS。我们将这一反直觉现象命名为"惰性注意力定位"。为验证其因果作用，我们设计了无需训练的直接注意力调控干预方法，在推理阶段通过调整注意力分配实现了1-2%的性能提升。基于这些发现，我们进一步提出注意力引导的视觉锚定与反思（AVAR）框架，该综合冷启动方案整合了视觉锚定数据合成、注意力引导目标函数和视觉锚定奖励塑造三大组件。在Qwen2.5-VL-7B模型上的实验表明，AVAR在7个多模态推理基准测试中平均提升7.0%。消融研究进一步证实AVAR各组件对性能提升均具有阶梯式贡献。相关代码、数据及模型已开源：https://github.com/lrlbbzl/Qwen-AVAR。

PureCC：面向文本到图像概念定制的纯学习框架
PureCC: Pure Learning for Text-to-Image Concept Customization

Mar 8

ByZhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan

现有概念定制方法在高保真度和多概念定制方面已取得显著成果，但在学习新个性化概念时往往忽略了对原始模型行为与能力的影响。针对此问题，我们提出PureCC方法。该方法通过引入解耦学习目标，将目标概念的隐式引导与原始条件预测相结合，这种分离形式使PureCC在训练过程中能显著聚焦于原始模型。基于此目标，PureCC设计了双分支训练流程：包含提供纯化目标概念表征作为隐式引导的冻结提取器，以及生成原始条件预测的可训练流模型，二者协同实现个性化概念的纯净学习。此外，PureCC引入新型自适应引导尺度λ*动态调节目标概念的引导强度，平衡定制保真度与模型保护。大量实验表明，PureCC在实现高保真概念定制的同时，能保持原始模型行为与能力的最优性能。代码已开源：https://github.com/lzc-sg/PureCC。

打造終端AI編程助手：框架構建、工具整合、語境工程與實踐心得
Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Mar 5

ByNghi D. Q. Bui

人工智能编程辅助的格局正在经历根本性转变，从复杂的IDE插件转向多功能、终端原生的智能体。基于命令行的智能体直接运行于开发者管理源代码控制、执行构建和部署环境的环境中，为长周期开发任务提供了前所未有的自主性。本文提出OPENDEV——一个专为此新范式设计的开源命令行编程智能体。有效的自主辅助需要严格的安全控制和高效率的上下文管理，以防止上下文膨胀和推理能力退化。OPENDEV通过复合式AI系统架构克服这些挑战，该架构包含工作负载专用模型路由、规划与执行分离的双智能体架构、惰性工具发现机制，以及通过渐进式缩减历史观察记录的自适应上下文压缩技术。此外，该系统采用自动化记忆机制积累跨会话的项目特定知识，并通过事件驱动的系统提醒机制抵消指令衰减效应。通过强制显式推理阶段和优先保障上下文效率，OPENDEV为终端优先的AI辅助提供了安全可扩展的基础框架，为健壮的自主软件工程实践提供了蓝图。

CaTok：驯服一维因果图像令牌化的均值流
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Mar 6

ByYitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

自迴歸（AR）語言模型依賴於因果標記化，但將此範式擴展至視覺領域仍非易事。現有視覺標記器要麼將二維圖像塊展平為非因果序列，要麼強制採用與「下一標記預測」模式不匹配的啟發式排序。近期擴散自編碼器同樣存在侷限：在解碼器中對所有標記進行條件化缺乏因果性，而應用嵌套丟棄機制則會引入不平衡問題。為解決這些難題，我們提出CaTok——一種配備均值流解碼器的一維因果圖像標記器。如圖1所示，通過在時間區間內選擇標記並將其與均值流目標綁定，CaTok能學習支持快速單步生成與高保真多步採樣的因果一維表徵，同時自然捕獲跨標記區間的多元視覺概念。為進一步穩定並加速訓練，我們提出簡潔的正則化方法REPA-A，將編碼器特徵與視覺基礎模型（VFM）對齊。實驗表明，CaTok在ImageNet重建任務上達到最先進水平，僅用更少訓練週期即實現0.75 FID、22.53 PSNR和0.674 SSIM，且其AR模型性能可與主流方法媲美。

数据难度扩展：通过在新颖挑战性问题上的强化学习提升编程模型性能
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Mar 8

ByZongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei

训练新一代代码生成模型需要高质量数据集，但现有数据集存在难度失衡、格式不一致和数据质量问题。我们通过系统性数据处理和难度分级应对这些挑战，提出包含收集、处理、筛选和验证的四阶段数据处理框架，并引入基于大语言模型的自动难度筛选机制——该预测-校准-选择框架利用五维加权难度指标，在保留具有挑战性题目的同时剔除简单题目。最终构建的MicroCoder数据集包含数万道经严格筛选的真实编程竞赛题目，覆盖多平台且注重时效性与难度平衡。在严格未见过的LiveCodeBench上的评估表明，相较于同等规模的常用基线数据集，MicroCoder在300个训练步数内实现3倍性能提升，且在GRPO及其变体训练算法下均保持稳定优势。该数据集在不同规模模型上对中高难度题目表现出显著改进，在模型能力极限测试中实现最高17.2%的相对性能增益。这些结果验证了难度感知的数据策展能提升模型应对复杂任务的能力，为代码生成领域的数据集构建提供了多重启示。

稀疏比特网络：1.58位大语言模型与半结构化稀疏性天然契合
Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Mar 5

ByDi Zhang, Xun Wu, Shaohan Huang, Yudong Wang, Hanyong Shao, Yingbo Hao, Zewen Chi, Li Dong, Ting Song, Yan Xia, Zhifang Sui, Furu Wei

半结构化N:M稀疏性与低位量化（如1.58位BitNet）是提升大语言模型效率的两种前景广阔的技术，但现有研究大多将二者割裂探讨。本文首次系统研究其相互作用，发现1.58位BitNet相比全精度模型天然具备更优的N:M稀疏兼容性。为验证该特性，我们提出Sparse-BitNet统一框架，在保证训练稳定性的前提下同步实现1.58位量化与动态N:M稀疏化。在多模型规模与训练机制（稀疏预训练及稠密到稀疏调度）下的实验表明：在相同稀疏度下，1.58位BitNet的性能衰减始终小于全精度基线，且在精度崩溃前可承受更高程度的结构化稀疏。通过定制稀疏张量核心，Sparse-BitNet在训练与推理阶段均实现显著加速，最高达1.30倍。这些成果证明，将极低位量化与半结构化N:M稀疏相结合是构建高效大语言模型的重要方向。代码已开源：https://github.com/AAzdi/Sparse-BitNet

NaviDriveVLM：面向自动驾驶的高层推理与运动规划解耦框架
NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Mar 9

ByXimeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey

视觉语言模型（VLMs）通过联合建模视觉观测、驾驶场景和基于语言的推理，已成为实现端到端自动驾驶（AD）的重要研究方向。然而，现有基于VLM的系统面临高级推理与运动规划之间的权衡：大模型具备强大的语义理解能力，但难以低成本适配精确控制；小模型虽可高效微调，但推理能力往往较弱。我们提出NaviDriveVLM——一种采用大规模导航器和轻量级可训练驱动器的解耦框架，将推理与动作生成分离。该设计在保持推理能力的同时降低训练成本，并为下游规划提供可解释的中间表征。在nuScenes基准测试中，NaviDriveVLM在端到端运动规划任务上超越了现有大型VLM基线模型。

CAST：通过视觉状态转换建模实现一致性视频检索
CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Mar 9

ByYanqing Liu, Yingcheng Liu, Fanghong Dong, Budianto Budianto, Cihang Xie, Yan Jiao

随着视频内容创作日益趋向长叙事形式，将短片片段组合成连贯故事线的重要性愈发凸显。然而当前主流的检索方法在推理时仍缺乏上下文感知，过度关注局部语义对齐而忽视了状态与身份一致性。为突破这一结构性局限，我们正式提出连贯视频检索任务，并构建了覆盖YouCook2、COIN和CrossTask的诊断基准。我们推出CAST（上下文感知状态转换器）——一种轻量级即插即用适配器，可兼容多种冻结的视觉语言嵌入空间。通过从视觉历史预测状态条件残差更新(Δ)，CAST为潜在状态演化引入了显式归纳偏置。大量实验表明，CAST在YouCook2和CrossTask上实现性能提升，在COIN数据集保持竞争力，并在不同基础骨干网络中持续超越零样本基线。此外，CAST能为黑箱视频生成候选结果（如Veo）提供有效的重排序信号，促进时间连贯性更强的续写生成。

FVG-PT：面向视觉语言模型的自适应前景视图引导提示调优
FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

Mar 9

ByHaoyang Li, Liang Wang, Siyu Zhou, Jiacheng Sun, Jing Jiang, Chao Wang, Guodong Long, Yan Peng

基於CLIP的提示調優技術能夠使預訓練視覺語言模型高效適應下游任務。現有研究雖取得顯著進展，但對調優過程中模型內部注意力表徵的變化關注有限。本文將提示調優預測的失效模式歸因於視覺編碼器前景注意力的偏移，據此提出前景視角引導提示調優框架（FVG-PT），通過自適應即插即用的前景注意力引導模組來緩解此類偏移。具體而言，FVG-PT引入可學習的前景可靠性閘門以自動提升前景視角質量，應用前景蒸餾補償模組引導視覺注意力聚焦前景，並進一步通過先驗校準模組緩解因過度關注前景導致的泛化性能衰退。在多種骨幹模型與數據集上的實驗驗證了FVG-PT的有效性與兼容性。代碼已開源於：https://github.com/JREion/FVG-PT

突破训练瓶颈：编码模型的高效稳定强化学习方法
Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Mar 8

ByZongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei

现代代码生成模型呈现出输出长度增长、能力加速演进及训练动态变化等特征，导致传统训练方法、算法与数据集难以有效提升其性能。为突破这些训练瓶颈，我们提出MicroCoder-GRPO——一种改进的群体相对策略优化方法，其包含三项创新：条件截断掩码技术可在保持训练稳定性的同时提升长文本生成潜力；多样性导向的温度选择机制能维持并促进输出多样性；采用高裁剪比去除KL损失以增强解决方案多样性。在LiveCodeBench v6基准测试中，该方法相较强基线实现最高17.6%的相对提升，且在长上下文评估中增益更为显著。同时我们开源了MicroCoder-Dataset，该更具挑战性的训练语料在300训练步内实现主流数据集三倍的性能增益；另推出MicroCoder-Evaluator评估框架，其评估准确率提升约25%，执行速度加快约40%。通过对三十余组对照实验的系统分析，我们提炼出涵盖七大维度的34项训练洞见，证明经过恰当训练的模型可实现与更大规模模型相媲美的性能。

跳過平淡章節：擴散模型與自回歸大模型的表徵結構及推理時層跳躍機制
Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Mar 8

ByRaghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli

自迴歸語言模型通過從左到右的預測逐步形成表徵，而擴散語言模型則通過全序列去噪進行訓練。儘管當前擴散模型的性能已可媲美自迴歸模型，但其訓練目標是否會從根本上重塑不同網絡深度的內部表徵仍不明確。我們首次開展了層級與詞元級別的表徵對比分析，比較了原生擴散模型（LLaDA）、原生自迴歸模型（Qwen2.5）及自迴歸初始化擴散模型（Dream-7B）。研究發現：擴散目標會形成更具層次性的抽象表徵，表現為底層存在大量冗餘且近因偏差減弱；而自迴歸目標則產生緊密耦合、深度依賴的表徵。關鍵在於，自迴歸初始化的擴散模型即便經過擴散訓練，仍保持著類自迴歸的表徵動力學，揭示了初始化的持續性偏差。基於觀察到的表徵冗餘現象，我們提出了一種無需修改架構或共享KV快取的靜態任務無關推理階段跳層方法。原生擴散模型可實現最高18.75%的浮點運算量削減，同時在推理與代碼生成基準測試中保持90%以上性能，而自迴歸模型在同等跳層條件下性能急劇下降。這些發現建立了訓練目標與表徵結構的關聯，並為實現與快存機制正交的實用性效率提升提供了路徑。

HY-WU（上篇）：可扩展功能性神经记忆框架及其在文本引导图像编辑中的实例化
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Mar 7

ByTencent HY Team

基础模型正从离线预测器转变为需长期运行的部署系统。在实际部署中，目标并非固定不变：领域会漂移、用户偏好会演变、模型发布后会出现新任务。这使得持续学习与即时个性化从可选特性升级为核心架构需求。然而大多数适配流程仍遵循静态权重范式：在训练（或任何适配步骤）后，无论用户意图、领域或实例特定约束如何，推理都执行单一参数向量。这种做法将训练或适配后的模型视为参数空间中的单一点。在异构且持续演变的场景中，不同目标会形成参数空间中相互分离的可行域，迫使任何共享更新陷入折衷、干扰或过度专门化。因此，持续学习与个性化常通过重复覆写共享权重来实现，这可能损害已习得的能力。我们提出HY-WU（权重释放）这一内存优先的适配框架，将适配压力从覆写单一共享参数点转移至功能记忆系统。HY-WU通过神经模块实现功能级（算子级）记忆：该生成器能根据实例条件动态合成权重更新，无需测试时优化即可产生实例特定算子。

OfficeQA Pro：面向端到端实体化推理的企业级基准评测体系
OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Mar 9

ByKrista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen

我们推出OfficeQA Pro基准测试，用于评估AI代理在大型异构文档库上进行具身多文档推理的能力。该文档库包含跨越近100年的美国财政部公报，共计8.9万页、逾2600万个数值。OfficeQA Pro包含133个问题，要求对非结构化文本和表格数据进行精准的文档解析、检索和分析推理。前沿大语言模型（包括Claude Opus 4.6、GPT-5.4和Gemini 3.1 Pro Preview）在仅依赖参数化知识时准确率不足5%，即使增加网络访问权限后准确率仍低于12%。当直接获取文档库时，前沿模型对超过半数问题仍表现不佳，平均得分仅为34.1%。我们发现，为模型提供由Databricks的ai_parse_document生成的结构化文档表示，可使各类代理的平均相对性能提升16.1%。我们通过消融实验进一步研究了模型选择、表格表示、检索策略和测试时扩展对性能的影响。尽管取得这些改进，要使AI代理在企业级具身推理任务中达到可靠水平，仍存在显著的提升空间。

LiveWorld：生成式视频世界模型中视野外动态的模拟系统
LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Mar 7

ByZicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu

当前生成式视频世界模型旨在模拟视觉环境的动态演化，使观察者能够通过相机控制交互式探索场景。然而这类模型隐含着一个前提：世界演化仅发生在观察者视野范围内。一旦物体离开观察视野，其状态将在记忆中被"冻结"，后续重新造访相同区域时往往无法反映期间本应发生的动态事件。本研究首次发现并将这一被忽视的局限形式化为"视野外动态演化"问题，该问题阻碍了视频世界模型对持续演化世界的表征能力。为解决此问题，我们提出LiveWorld创新框架，通过扩展视频世界模型支持持久性世界演化。该框架摒弃将世界视为静态观测记忆的传统思路，转而构建由静态三维背景与动态实体构成的持久化全局状态——这些实体即使未被观察仍会持续演化。为维持不可见区域的动态演化，LiveWorld引入基于监控器的机制，自主模拟活跃实体的时间演进过程，并在重新观察时同步其演化后的状态，确保空间一致性渲染。针对评估需求，我们进一步提出LiveBench专用基准测试集，专门用于评估视野外动态演化的维持能力。大量实验表明，LiveWorld能够实现持续性事件演化与长期场景一致性，弥合了现有基于二维观测的记忆系统与真实四维动态世界模拟之间的鸿沟。基线模型与基准测试集已公开于https://zichengduan.github.io/LiveWorld/index.html。

HydroShear：面向触觉模拟到真实强化学习的水弹性剪切仿真
HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

Feb 28

ByAn Dang, Jayjun Lee, Mustafa Mukadam, X. Alice Wu, Bernadette Bucher, Manikantan Nambi, Nima Fazeli

本文针对接触密集型任务中的触觉仿真到现实策略迁移问题展开研究。现有方法主要关注基于视觉的传感器，强调图像渲染质量却采用过于简化的力和剪切力模型，导致这些模型在诸多精细操作任务中存在显著的仿真与现实差异。我们提出HydroShear——一种非完整流体弹性触觉模拟器，通过建立以下模型推动技术发展：a) 静动摩擦转换机制，b) 路径依赖的力与剪切力累积模型，c) 完整SE(3)空间下的物体-传感器交互。该模拟器基于符号距离函数扩展流体弹性接触模型，实时追踪压头与传感器膜物理交互过程中表面点的位移。我们的方法能从任意水密几何体生成基于物理原理且计算高效的力量场，同时保持对底层物理引擎的无关性。在GelSight Mini传感器实验中，相较于现有方法，HydroShear能更精确地复现实物触觉剪切力。这种高保真特性实现了强化学习策略在四个任务中的零样本仿真到现实迁移：轴孔装配、料箱堆叠、书架插书以及基于滑动检测的抽屉拉取精细抓握控制。本方法平均成功率高达93%，显著优于基于触觉图像训练的策略（34%）及其他剪切力模拟方法（58%-61%）。

基于离线强化学习的图像风格化推理与智能体规划
Agentic Planning with Reasoning for Image Styling via Offline RL

Mar 7

BySubhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee

基於直接提示的編輯方法在處理複雜圖像轉換時往往效果不佳，因為模糊且主觀的提示需要對圖像應修改內容具備細緻入微的理解。我們的核心思路是：與其直接使用提示，不如利用組合式圖像編輯工具，通過具有明確推理過程的結構化智能體規劃來獲得更優結果。這種結構化規劃框架能夠對質量評分的軌跡進行高效的離線強化學習後訓練，從而提升性能。我們提出了一個基於工具的智能體強化學習後訓練框架，該框架通過具備思維鏈推理的結構化規劃來解決這一問題。我們的主要貢獻包括：（1）基於工具的智能體規劃方法，結合了正交原始變換的組合庫、結構化上下文表徵以及明確的逐步驟推理，可將複雜風格化任務分解為可解釋的工具序列；（2）合成數據生成流程，構建了三個大規模數據集（各包含1萬條模擬軌跡），提供推理鏈、規劃方案和質量評分，現有數據集均缺乏此類監督信號；（3）作為核心算法貢獻的離線強化學習訓練方法，用於訓練具備推理能力的規劃器，在視覺質量和指令遵循方面持續超越僅編輯基線；（4）在40億和80億參數的Qwen3-VL模型上進行全面評估，表明我們的方法在大多數組合任務中優於其他基線，並通過人工評估驗證。

PresentBench：基于精细量规的幻灯片生成基准测试框架
PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Mar 7

ByXin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo

在學術、教育及商業等以演示為導向的場景中，幻燈片是傳遞資訊的關鍵媒介。儘管其重要性不言而喻，但製作高質量的幻燈片組仍耗時費力且對認知能力要求極高。隨著Nano Banana Pro等生成模型的最新進展，自動化幻燈片生成已日益可行。然而，現有的幻燈片生成評估往往過於粗粒度且依賴整體性判斷，難以準確衡量模型能力或追蹤該領域的實質進展。實踐中，缺乏細粒度、可驗證的評估標準已成為研究與實際應用的關鍵瓶頸。本文提出PresentBench——一個基於細粒度評分量表的基準測試框架，用於評估自動化實境幻燈片生成。該框架包含238個評估實例，每個實例均附帶幻燈片製作所需的背景材料。此外，我們為每個實例人工設計了平均54.1個檢查項（以二元問題形式呈現），實現對生成幻燈片組的細粒度實例化評估。大量實驗表明，PresentBench相比現有方法能提供更可靠的評估結果，且與人類偏好呈現顯著更強的關聯性。進一步地，我們的基準測試揭示NotebookLM顯著優於其他幻燈片生成方法，印證了該領域近期取得的重大進展。

让大语言模型像专家一样优化多场景CUDA内核
Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Mar 7

ByYuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu

手動優化GPU核心是一項極具挑戰且耗時的任務。隨著大型語言模型（LLMS）的快速發展，自動化GPU核心優化正逐漸成為可觸及的現實。然而，當前基於LLM的自動優化方法僅狹隘地聚焦於機器學習應用（如PyTorch算子優化），卻忽視了科學計算中稀疏矩陣運算等更廣泛的領域。向這些廣闊應用場景的拓展為基準測試與算法帶來了新挑戰。因此，開發通用型自動化核心優化方法成為我們的核心目標。本文通過構建MSKernelBench填補了多場景系統性評估的空白，該基準涵蓋基礎代數運算、常見LLM核心、稀疏矩陣算子及科學計算例程四大場景，且每個場景均支持FP32與BF16精度。基於此基準，我們提出CUDAMaster——一個多智能體、硬件感知的核心優化系統，它利用性能剖析信息並自動構建完整的編譯執行工具鏈。實驗結果表明，CUDAMaster在多數算子中實現顯著加速，性能較Astra提升約35%。在若干案例中，其表現可與cuBLAS等高度優化的閉源庫媲美甚至更優。各算子的原始代碼與優化代碼演示可見於：https://hanyx2021.github.io/MSKernelBenchDemo/。

ByteFlow：基於自適應字節壓縮的無分詞器語言建模
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Mar 3

ByChunyuan Deng, Sanket Lokegaonkar, Colin Lockard, Besnik Fetahu, Nasser Zalmout, Xian Li

當代語言模型仍依賴固定、預定義的子詞標記化方案。一旦標記器訓練完成，語言模型便只能在此固定粒度層級上運行，這往往導致即便在強推理模型中仍會出現脆弱且違反直覺的行為。我們提出ByteFlow Net——一種新型分層架構，完全摒棄標記器，轉而讓模型能自主將原始字節流分割成語義單元。該架構基於潛表徵的編碼率執行壓縮驅動的分割，通過Top-K選擇在保持靜態計算圖的同時生成自適應邊界。與以往依賴具人為設計歸納偏置的脆弱啟發式方法不同，ByteFlow Net能根據輸入數據自適應調整內部表徵粒度。實驗表明，這種基於壓縮的分塊策略帶來顯著性能提升，ByteFlow Net在表現上均優於基於BPE的Transformer架構及先前字節級模型。這些結果證明，端到端的無標記器建模不僅可行且更具效能，為構建更具適應性與信息基礎的語言模型開闢了新路徑。

基于视觉基础模型的通用知识蒸馏在语义分割中的应用
Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Mar 3

ByChonghua Lv, Dong Zhao, Shuang Wang, Dou Quan, Ning Huyan, Nicu Sebe, Zhun Zhong

知識蒸餾（KD）在語義分割領域已被廣泛應用於壓縮大型模型，但傳統方法主要側重於保持域內精度，而忽略了域外泛化能力——這一特性在分佈偏移場景下至關重要。隨著視覺基礎模型（VFMs）的出現，該局限性愈發凸顯：儘管VFMs在未見數據上展現出強健的魯棒性，但採用傳統KD方法對其進行蒸餾時，往往會削弱這種能力。我們提出可泛化知識蒸餾（GKD），這是一種顯式增強泛化能力的多階段框架。GKD將表徵學習與任務學習解耦：第一階段中，學生模型通過選擇性特徵蒸餾獲取領域無關表徵；第二階段則凍結這些表徵進行任務適配，從而緩解對可見領域的過擬合。為進一步支持遷移，我們引入基於查詢的軟蒸餾機制，使學生模型特徵作為查詢向量，從VFMs中選擇性檢索可遷移的空間知識。在五個領域泛化基準上的大量實驗表明，GKD持續優於現有KD方法，在基礎模型到基礎模型（F2F）和基礎模型到局部模型（F2L）的蒸餾中分別實現了平均+1.9%和+10.6%的性能提升。代碼將發佈於https://github.com/Younger-hua/GKD。

Pass@k的免费午餐？扩散语言模型的低成本多样性采样
Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models

Mar 5

BySean Lamont, Christian Walder, Paul Montague, Amir Dezfouli, Michael Norrish

在複雜推理任務（如程式碼生成與數學問題求解）中，文本生成的多樣化輸出對於有效探索至關重要。這類Pass@k問題需要覆蓋解空間的差異化解候選方案。然而，傳統採樣方法常因重複的失敗模式而浪費計算資源。儘管擴散語言模型已成為主流自回歸範式的競爭性替代方案，但其獨立樣本仍易坍縮至相似模式，難以規避此類冗餘。為解決此問題，我們提出一種無需訓練、低成本的干預方法，旨在增強擴散語言模型的生成多樣性。該方法對批次中的中間樣本進行序列化修正，使每個樣本在特徵空間中排斥先前行成的樣本，主動懲罰冗餘現象。與需要重新訓練或束搜索的既有方法不同，我們的策略僅產生可忽略的計算開銷，同時確保每個樣本為批次提供獨特視角。我們使用LLaDA-8B-Instruct模型在HumanEval和GSM8K基準上評估本方法。結果表明，在不同溫度設定下，該方法能顯著提升多樣性與Pass@k性能。作為採樣過程的簡單修正，本方法可為當前及未來的擴散語言模型在需要多樣化解搜索的任務中，提供即時、低成本的改進方案。程式碼已開源於：https://github.com/sean-lamont/odd。

TAPFormer：通过帧与事件的瞬态异步融合实现鲁棒性任意点追踪
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Mar 5

ByJiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu

追踪任意点（TAP）是计算机视觉中基础但具有挑战性的任务，需要高精度和长时序运动推理。近期结合RGB帧与事件流的研究虽展现出潜力，但通常依赖同步或非自适应融合机制，导致模态失效时出现时序错位与性能急剧下降。我们提出TAPFormer——基于Transformer的框架，通过异步时序一致融合机制实现鲁棒的高频率任意点追踪。其核心创新是瞬态异步融合（TAF）机制，通过连续事件更新显式建模离散帧间的时序演化，弥合低帧率视频与高频率事件流之间的鸿沟。此外，跨模态局部加权融合（CLWF）模块能根据模态可靠性自适应调整空间注意力，即使在模糊或低光条件下也能生成稳定且具判别性的特征。为在真实场景下评估方法，我们构建了包含多种光照与运动条件的新型真实世界帧-事件TAP数据集。本方法显著优于现有点追踪器，在阈值内平均像素误差降低28.2%。在标准点追踪基准测试中，我们的追踪器持续保持最优性能。项目主页：tapformer.github.io

人工智能驱动的交通流模式与土地利用互动的时空异质性：基于地理人工智能的多模态城市流动性分析
Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Mar 5

ByOlaf Yunus Laitinen Imanov

城市交通流受土地利用配置与时空异质性出行需求之间复杂的非线性相互作用支配。传统全局回归与时间序列模型难以同步捕捉多交通方式的多尺度动态特征。本研究提出一种GeoAI混合分析框架，通过序贯整合多尺度地理加权回归（MGWR）、随机森林（RF）与时空图卷积网络（ST-GCN），分别对机动车、公共交通和主动出行三种交通模式的流量时空分异规律及其与土地利用的交互作用进行建模。将该框架应用于跨越两种对比城市形态的六个城市、包含350个交通分析区的实证校准数据集，得出四项核心发现：（1）GeoAI混合模型的均方根误差（RMSE）为0.119、R²达0.891，较基准模型性能提升23-62%；（2）SHAP分析显示土地利用混合度是机动车流量的最强预测因子，而公交站点密度对公共交通流量预测贡献最大；（3）DBSCAN聚类识别出五种功能迥异的城市交通类型（轮廓系数0.71），且GeoAI混合模型残差的莫兰指数降至0.218（p<0.001），较OLS基线降低72%；（4）跨城市迁移实验表明模型在聚类内部具有中等可迁移性（R²≥0.78），但跨聚类泛化能力有限，凸显城市形态背景的主导作用。该框架为规划师与交通工程师提供了可解释、可扩展的决策工具，支持基于实证的多模式交通管理与土地利用政策设计。

MedSteer：基于免训练激活导向的虚拟内窥镜合成技术
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Mar 7

ByTrong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le

生成式扩散模型在医学影像数据增强中的应用日益增多，但基于文本提示的方法无法生成具有因果关系的训练数据。重新提示会重置整个生成轨迹，导致解剖结构、纹理和背景同时改变。基于反转的编辑方法存在重建误差，会引发结构漂移问题。我们提出MedSteer——一种用于内窥镜影像合成的免训练激活导向框架。该方法通过扩散变换器的交叉注意力层，为每个对比提示对识别病理向量。在推理阶段，它沿着该向量引导图像激活，从零生成反事实图像对，其中唯一差异仅存在于被引导的病理特征，其他所有结构均通过构建过程得以保留。我们在Kvasir v3和HyperKvasir数据集上进行了三项实验验证：针对三组临床概念的反事实生成任务，MedSteer的概念翻转率分别达到0.800、0.925和0.950，在概念翻转率与结构保真度上均优于最佳反转基线方法；在染色特征解耦任务中，MedSteer实现75%的染色去除率，显著优于PnP（20%）和h-Edit（10%）；在下游息肉检测任务中，使用MedSteer反事实对进行数据增强的ViT模型AUC达0.9755，而数量匹配的重新提示方法仅为0.9083，证实反事实结构保留是性能提升的关键。代码详见https://github.com/phamtrongthang123/medsteer。

变分流映射：为一步条件生成引入噪声机制
Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Mar 7

ByAbbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner

流映射模型能够通过单次前向传播实现高质量图像生成。然而与迭代式扩散模型不同，其缺乏显式采样轨迹的特性阻碍了外部约束在条件生成和逆问题求解中的集成。我们提出变分流映射（VFM）这一条件采样框架，将条件控制的视角从"引导采样路径"转变为"学习合适的初始噪声"。具体而言，给定观测条件时，我们通过训练噪声适配器模型来输出符合条件约束的噪声分布，使得经过流映射转换到数据空间后的样本既能满足观测约束又保持数据先验特性。为此，我们建立了具有理论依据的变分目标函数，通过联合训练噪声适配器与流映射模型来提升噪声-数据对齐效果，从而仅需简单适配器即可实现复杂数据后验的采样。在多种逆问题上的实验表明，VFM能够通过单次（或少量）迭代生成校准良好的条件样本。在ImageNet数据集上，相较于其他迭代式扩散/流模型，VFM在保持竞争力的生成保真度同时，将采样速度提升了数个数量级。代码发布于https://github.com/abbasmammadov/VFM

Janus颗粒在平面壁附近的自主运动：润滑极限分析
Autophoresis of a Janus particle near a planar wall: a lubrication limit

Feb 28

ByTachin Ruangkriengsin, Günther Turk, Howard A. Stone

我们研究了球形化学活性粒子在不可渗透平面壁附近的自身扩散泳运动，重点分析了粒子取向对推进作用的影响。针对具有不对称表面化学活性的Janus粒子（其催化活性帽内包含小型惰性区域）进行了理论解析。尽管数值模拟已被用于研究此类粒子，但由于几何约束和陡峭的溶质浓度梯度，在极近壁区域求解流动和输运过程仍存在困难。我们通过近接触极限（粒子与壁面间隙极小）下的渐近分析解决了这一局限，特别考察了惰性区域尺寸与润滑区域渐近相当的特定情形。通过分析惰性表面平行于壁面的轴对称构型，并将研究拓展至微倾斜取向，发现翻转现象决定了倾斜粒子是向轴对称状态回转还是持续转向，从而表征了近接触区域内粒子的旋转稳定性。

基于检索增强生成的基因扰动细胞反应预测
Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Mar 7

ByAndrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò

预测细胞如何响应基因扰动是理解基因功能、疾病机制和治疗开发的基础。尽管近期深度学习方法在模拟单细胞扰动响应方面展现出潜力，但由于生成过程中上下文信息有限，这些方法难以在不同细胞类型和扰动场景中实现泛化。我们提出PT-RAG（扰动感知双阶段检索增强生成）——一种创新框架，将检索增强生成技术从传统语言模型应用拓展至细胞生物学领域。与基于预训练大语言模型的标准文本检索RAG系统不同，扰动检索缺乏成熟的相似性度量标准，需要通过学习来定义相关上下文构成，这使得可微分检索成为关键。PT-RAG通过双阶段流程解决这一难题：首先利用GenePT嵌入检索候选扰动K，随后通过基于细胞状态和输入扰动的Gumbel-Softmax离散采样进行自适应筛选优化。这种细胞类型感知的可微分检索实现了检索目标与生成任务的端到端联合优化。在Replogle-Nadig单基因扰动数据集上的实验表明，在相同实验条件下PT-RAG的表现优于STATE模型和原始RAG模型，其中分布相似性指标（W_1、W_2）提升最为显著。值得注意的是，原始RAG的显著失败本身即重要发现：它证明在该领域必须采用细胞类型感知的可微分检索，而简单检索反而会损害性能。我们的研究确立了检索增强生成作为模拟细胞对基因扰动响应的前沿范式。实验复现代码详见https://github.com/difra100/PT-RAG_ICLR。

SlowBA：针对基于VLM的GUI代理的效能型后门攻击
SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Mar 9

ByJunxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu

基於現代視覺語言模型(VLM)的圖形用戶界面(GUI)智能體不僅需要精確執行操作，更需以低延遲響應用戶指令。當前GUI智能體安全研究主要聚焦於操作正確性的操控，而與響應效率相關的安全風險仍亟待探索。本文提出SlowBA——一種針對VLM基GUI智能體響應能力的新型後門攻擊。其核心思路是通過特定觸發模式誘導模型生成過長推理鏈，從而操控響應延遲。為實現此目標，我們設計了兩階段獎勵級後門注入(RBI)策略：先對齊長響應格式，再通過強化學習實現觸發模式感知激活。此外，我們設計了GUI環境中自然出現的彈出窗口作為觸發器，有效提升攻擊隱蔽性。在多數據集與基線模型上的廣泛實驗表明，SlowBA能在基本保持任務準確性的同時，顯著增加響應長度與延遲。即使在小規模數據污染比例及多種防禦設置下，該攻擊仍保持有效性。這些發現揭示了GUI智能體領域長期被忽視的安全漏洞，強調需兼顧操作正確性與響應效率的防禦機制。代碼已開源於https://github.com/tu-tuing/SlowBA。

种子策略：基于自演进扩散策略的机器人操作水平扩展
SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Mar 5

ByYouqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu

模仿學習（IL）能使機器人透過專家示範掌握操作技能。擴散策略（DP）雖能建模多模態專家行為，但其性能會隨觀測時域的延長而衰減，限制了長時域操作能力。本文提出自演化門控注意力（SEGA）時序模塊，該模塊通過門控注意力機制維持隨時間演化的潛在狀態，實現高效的遞歸更新：既能將長時域觀測壓縮為固定尺寸表徵，又可濾除無關時序信息。將SEGA整合至DP形成自演化擴散策略（SeedPolicy），該方法突破了時序建模瓶頸，能以適中開銷實現可擴展的時域延伸。在包含50項操作任務的RoboTwin 2.0基準測試中，SeedPolicy優於DP及其他IL基線模型。在CNN與Transformer雙骨幹網絡的綜合評測下，SeedPolicy在標準設定中相對DP實現36.8%的性能提升，在隨機化挑戰設定中提升幅度達169%。相較於擁有12億參數的視覺-語言-動作模型（如RDT），SeedPolicy以少一至兩個數量級的參數量取得相當性能，展現出卓越的效能與可擴展性。這些成果確立SeedPolicy作為長時域機器人操作領域的頂尖模仿學習方法。代碼已開源於：https://github.com/Youqiang-Gui/SeedPolicy。

MWM：面向动作条件一致性预测的移动世界模型
MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Mar 8

ByHan Yan, Zishang Xiang, Zeyu Zhang, Hao Tang

世界模型能够在预测的未来想象空间中进行规划，为具身导航提供了前景广阔的框架。然而，现有导航世界模型往往缺乏动作条件一致性，导致视觉上合理的预测在多步推演下仍会产生漂移，进而影响规划性能。此外，高效部署需要少步数扩散推理，但现有蒸馏方法未能显式保持推演一致性，造成训练与推理的不匹配。针对这些挑战，我们提出MWM——一种基于规划的图像目标导航移动世界模型。具体而言，我们设计了结合结构预训练与动作条件一致性后训练的两阶段框架，以提升动作条件下的推演一致性。进一步提出推理一致状态蒸馏法，通过改进的推演一致性实现少步数扩散蒸馏。在基准测试和实际任务上的实验表明，该方法在视觉保真度、轨迹精度、规划成功率及推理效率方面均取得持续提升。代码：https://github.com/AIGeeksGroup/MWM。项目网站：https://aigeeksgroup.github.io/MWM。