HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

31 papers found

LMEB：長時程記憶嵌入基準測試
LMEB: Long-horizon Memory Embedding Benchmark

Mar 13

ByXinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang

記憶嵌入技術對於記憶增強系統（如OpenClaw）至關重要，但其評估在現有文本嵌入基準測試中尚未得到充分探索。當前基準測試僅狹隘地聚焦於傳統段落檢索，未能有效評估模型處理涉及碎片化、上下文依賴性及時間跨度較長的記憶檢索任務的能力。為解決這一問題，我們推出長週期記憶嵌入基準測試（LMEB），這是一個綜合性框架，用於評估嵌入模型處理複雜長週期記憶檢索任務的能力。LMEB涵蓋22個數據集和193個零樣本檢索任務，包含情景記憶、對話記憶、語義記憶和程序性記憶四種類型，並同時採用AI生成數據與人工標註數據。這些記憶類型在抽象層級和時間依賴性上存在差異，捕捉了反映現實世界多樣化挑戰的記憶檢索特徵。我們評估了15個廣泛使用的嵌入模型，參數量從數億到百億級不等。結果表明：（1）LMEB具備合理的難度層級；（2）模型規模與性能並非正相關；（3）LMEB與MTEB存在正交性。這說明學界尚未收斂出能勝任所有記憶檢索任務的通用模型，且傳統段落檢索的性能可能無法遷移至長週期記憶檢索場景。總而言之，通過提供標準化、可重現的評估框架，LMEB填補了記憶嵌入評估的關鍵空白，將推動文本嵌入技術在處理長期上下文依賴型記憶檢索方面的進一步發展。LMEB已開源於：https://github.com/KaLM-Embedding/LMEB。

視覺語言模型能破解貝殼遊戲嗎？
Can Vision-Language Models Solve the Shell Game?

Mar 9

ByTiedong Liu, Wee Sun Lee

視覺實體追蹤是人類與生俱來的認知能力，但對視覺語言模型而言仍是關鍵瓶頸。現有影片基準測試中的視覺捷徑往往掩蓋了這項缺陷。我們提出VET-Bench——一個合成診斷測試平台，其特點在於包含視覺上完全相同的物體，必須僅透過時空連續性進行追蹤。實驗顯示，當前最先進的視覺語言模型在VET-Bench上的表現接近隨機猜測水準，暴露出根本性限制：過度依賴靜態幀級特徵，且無法隨時間維持實體表徵。我們透過理論分析連結狀態追蹤問題，證明基於固定深度轉換器的視覺語言模型因表達能力限制，本質上無法在缺乏中間監督的情況下追蹤不可區分物體。為解決此問題，我們提出時空接地思維鏈：將物體軌跡生成為顯式中間狀態。藉由Molmo2的物體追蹤能力，我們透過對合成純文本數據進行微調來實現對齊，從而激發SGCoT推理。我們的方法在VET-Bench上實現超過90%的頂尖準確率，證明視覺語言模型無需外部工具即可端到端可靠解決影片殼牌遊戲任務。程式碼與數據請見：https://vetbench.github.io。

多模態光學字元辨識：全方位解析文件內容
Multimodal OCR: Parse Anything from Documents

Mar 13

ByHandong Zheng, Yumeng Li, Kaile Zhang, Liang Xin, Guangwei Zhao, Hao Liu, Jiayu Chen, Jie Lou, Jiyu Qiu, Qi Fu, Rui Yang, Shuo Jiang, Weijian Luo, Weijie Su, Weijun Zhang, Xingyu Zhu, Yabin Li, Yiwei ma, Yu Chen, Zhaohui Yu, Guang Yang, Colin Zhang, Lei Zhang, Yuliang Liu, Xiang Bai

我們提出多模態光學字元辨識（MOCR），這是一種將文字與圖形共同解析為統一文字表徵的文件解析範式。有別於傳統僅專注文字辨識並將圖形區域保留為裁剪像素的OCR系統，我們命名為dots.mocr的方法將圖表、示意圖、表格與圖示等視覺元素視為一級解析目標，使系統能在解析文件時保持元素間的語義關聯。此方法具備三大優勢：（1）將文字與圖形重建為結構化輸出，實現更忠實的文件重建；（2）支援對異質文件元素進行端到端訓練，使模型能利用文字與視覺組件間的語義關係；（3）將過往被捨棄的圖形轉換為可重複使用的程式碼級監督信號，釋放既有文件中嵌入的多模態監督潛力。為實現大規模應用，我們基於PDF文件、渲染網頁及原生SVG資源建構完整數據引擎，並透過分階段預訓練與監督式微調訓練出僅30億參數的緊湊模型。我們從文件解析與結構化圖形解析雙維度評估dots.mocr：在文件解析基準測試中，其於OCR競技場Elo排行榜僅次於Gemini 3 Pro，超越現有開源文件解析系統，並在olmOCR基準以83.9分創下新紀錄；在結構化圖形解析方面，dots.mocr於圖像轉SVG基準測試中重建品質優於Gemini 3 Pro，於圖表、UI佈局、科學圖示與化學結構式均展現強勁性能。這些成果為建構大規模圖像轉程式碼語料庫以實現多模態預訓練開闢可行路徑。程式碼與模型已公開於：https://github.com/rednote-hilab/dots.mocr。

歡慶：解耦圖像塊細節與語義表徵實現統一多模態理解與生成
Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation

Mar 13

ByYichen Zhang, Da Peng, Zonghao Guo, Zijian Zhang, Xuesong Yang, Tong Sun, Shichu Sun, Yidan Zhang, Yanghao Li, Haiyan Zhao, Wang Xu, Qi Shi, Yangang Sun, Chi Chen, Shuo Wang, Yukun Yan, Xu Han, Qiang Ma, Wei Ke, Liang Wang, Zhiyuan Liu, Maosong Sun

近期多模態建模的前沿課題是將視覺理解與生成任務統一於單一模型。然而，這兩類任務需要不匹配的解碼機制與視覺表徵，使得在共享特徵空間中進行聯合優化具有挑戰性。本文提出Cheers模型，通過將像素級細節與語義表徵解耦，既穩定了多模態理解的語義基礎，又通過門控細節殘差提升圖像生成的保真度。Cheers包含三大核心組件：(i) 統一視覺標記器，將圖像潛在狀態編碼壓縮為語義標記以供大語言模型高效調控；(ii) 基於LLM的Transformer架構，統一文本的自迴歸解碼與圖像的擴散解碼；(iii) 級聯流匹配頭，先解碼視覺語義，再注入由視覺標記器生成的語義門控細節殘差以優化高頻內容。在主流基準測試中，Cheers在視覺理解與生成任務上均達到或超越先進統一多模態模型的性能。該模型還實現了4倍的標記壓縮率，支持更高效的高分辨率圖像編碼與生成。值得注意的是，Cheers在GenEval和MMBench基準上超越Tar-1.5B模型，而訓練成本僅需後者的20%，展現出高效能（4倍標記壓縮）的統一多模態建模能力。我們將公開所有代碼與數據以促進後續研究。

OmniForcing：即時聯合視聽生成技術的全面釋放
OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

Mar 12

ByYaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

近期聯合音訊-視覺擴散模型雖實現了卓越的生成品質，卻因雙向注意力依賴導致高延遲，阻礙了即時應用。我們提出OmniForcing——首個將離線雙向擴散模型蒸餾為高保真串流自回歸生成器的框架。然而，對此類雙流架構直接應用因果蒸餾會引發嚴重訓練不穩定性，根源在於模態間極端的時間不對稱性及由此產生的令牌稀疏問題。我們通過引入具零截斷全局前綴的非對稱區塊因果對齊機制，解決內在的資訊密度差距，防止多模態同步漂移。針對因果偏移期間因音訊令牌極度稀疏導致的梯度爆炸問題，進一步採用配備恆等旋轉位置編碼約束的音訊匯點令牌機制。最後，通過聯合自強制蒸餾範式，使模型能在長序列推演中動態修正因曝光偏差產生的累積跨模態誤差。憑藉模態無關的滾動鍵值快取推論方案，OmniForcing在單一GPU上實現每秒25幀的頂尖串流生成效能，同時保持與雙向教師模型相當的多模態同步性與視覺品質。專案頁面：https://omniforcing.com

视频流思维：VideoLLM模型实现观看与思考同步进行
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Mar 12

ByYiran Guan, Liang Yin, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Jian Luan, Yuliang Liu, Xiang Bai

在线视频大语言模型（VideoLLMs）在支持响应式实时交互中发挥着关键作用。现有方法主要关注流式感知，但缺乏同步的逻辑推理流。然而直接应用测试时缩放方法会导致难以接受的响应延迟。为解决这一权衡问题，我们提出视频流思维（VST）这一创新的流式视频理解范式。该范式支持"边看边思"机制，在视频流传输过程中实时激活对输入视频片段的推理。通过将大语言模型推理延迟分摊至视频播放过程，该设计在保持实时响应性的同时，显著提升了即时理解能力与连贯认知效果。此外，我们构建了完整的训练后优化流程：VST-SFT通过结构适配将离线视频大语言模型调整为因果流式推理模式，VST-RL则在多轮视频交互环境中通过自我探索实现端到端改进。我们还开发了自动化训练数据合成流程，利用视频知识图谱生成高质量流式问答对，并采用基于实体关系锚定的流式思维链来强化多证据推理能力与对视频流的持续关注。大量实验表明，VST-7B在在线基准测试中表现优异（StreamingBench达79.5%，OVO-Bench达59.3%），同时在离线长视频推理基准上保持竞争力。相较于Video-R1，VST响应速度提升15.7倍，并在VideoHolmes基准上实现+5.4%的性能提升，展现出更高效率与跨视频理解任务的强泛化能力。代码、数据及模型将于https://github.com/1ranGuan/VST 发布。

daVinci-Env：大規模開放式軟體工程環境合成
daVinci-Env: Open SWE Environment Synthesis at Scale

Mar 13

ByDayuan Fu, Shenyu Wu, Yunze Wu, Zerui Peng, Yaxing Huang, Jie Sun, Ji Zeng, Mohan Jiang, Lin Zhang, Yukun Li, Jiarui Hu, Liming Liu, Jinlong Hou, Pengfei Liu

訓練具備能力的軟體工程（SWE）智能體需要大規模、可執行且可驗證的環境，這些環境應提供動態反饋循環以支持迭代式程式碼編輯、測試執行與解決方案優化。然而，現有開源數據集在規模與儲存庫多樣性方面仍顯不足，而工業級解決方案則因未公開基礎設施而缺乏透明度，這為多數學術研究團隊設定了難以逾越的門檻。我們提出 OpenSWE——目前規模最大、完全透明的 Python 軟體工程智能體訓練框架，包含 45,320 個可執行的 Docker 環境，涵蓋超過 12.8k 個儲存庫，所有 Dockerfile、評估腳本及基礎設施均完全開源以確保可重現性。OpenSWE 透過部署於 64 節點分散式集群的多智能體合成流水線構建，實現了儲存庫探索、Dockerfile 構建、評估腳本生成與迭代式測試分析的自動化。除了規模優勢，我們還提出以質量為核心的篩選流水線，可量化每個環境的固有難度，過濾無法解決或挑戰性不足的實例，僅保留能最大化學習效率的環境。該項目在環境構建階段投入 89.1 萬美元，並在軌跡採樣與難度感知篩選階段追加 57.6 萬美元，總投資約 147 萬美元，最終從約 9,000 個質量受控環境中產出約 13,000 條精選軌跡。大量實驗驗證了 OpenSWE 的有效性：OpenSWE-32B 與 OpenSWE-72B 在 SWE-bench Verified 上分別達到 62.4% 與 66.0% 的成績，創下 Qwen2.5 系列的新標竿。此外，專注於軟體工程的訓練還帶來顯著的領域外提升，包括數學推理任務最高提升 12 個百分點、科學基準提升 5 個百分點，且未損害事實回憶能力。

視覺等價獎勵建模：視覺-ERM
Visual-ERM: Reward Modeling for Visual Equivalence

Mar 13

ByZiyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

視覺到程式碼任務要求模型將結構化視覺輸入（如圖表、表格和SVG）重建為具有高視覺保真度的可執行或結構化表徵。儘管近期的大型視覺語言模型（LVLM）通過監督微調取得了顯著成果，但由於獎勵信號失準，強化學習仍面臨挑戰。現有獎勵機制要么依賴文本規則，要么採用粗粒度的視覺嵌入相似度，兩者均無法捕捉細粒度視覺差異且易受獎勵破解影響。我們提出視覺等價獎勵模型（Visual-ERM），這是一種多模態生成式獎勵模型，能在渲染視覺空間中直接評估視覺到程式碼的質量，提供細粒度、可解釋且與任務無關的反饋。該模型整合至強化學習後，使Qwen3-VL-8B-Instruct在圖表到程式碼任務上提升+8.4分，並在表格和SVG解析任務上實現穩定增益（平均提升+2.7、+4.1分），同時通過反思與修訂進一步強化測試時擴展能力。我們還推出VisualCritic-RewardBench（VC-RewardBench）基準測試，用於評估結構化視覺數據的細粒度圖像差異。實驗表明，8B參數的Visual-ERM顯著超越Qwen3-VL-235B-Instruct，並逼近領先的閉源模型。研究結果證實，無論任務特性如何，細粒度視覺獎勵監督對視覺到程式碼的強化學習既必要又充分。

MM-CondChain：面向视觉基础深度组合推理的程序化验证基准
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Mar 12

ByHaozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin

多模态大语言模型（MLLMs）正日益广泛地应用于执行视觉工作流（如图形用户界面导航），这类任务中后续步骤取决于经验证的视觉组合条件（例如“若出现权限对话框且界面颜色为绿色，则点击允许”），且流程可能分叉或提前终止。然而该能力仍缺乏系统评估：现有基准测试多聚焦于浅层组合或独立约束，而非深度链式组合条件。本文提出MM-CondChain——一个面向视觉情境深度组合推理的基准测试框架。每个测试实例均组织为多层推理链，各层均包含基于视觉证据的非平凡组合条件，这些条件由多个对象、属性或关系构建而成。要正确作答，MLLM需细致感知图像内容，在每一步对多个视觉元素进行推理，并沿执行路径推导至最终结果。为实现工作流式数据的规模化构建，我们提出智能体合成流水线：规划器（Planner）逐层协调组合条件的生成，而可验证程序化中间表示（VPIR）确保每层条件具备机械可验证性。合成器（Composer）随后将这些验证通过的层级组装为完整指令。基于该流水线，我们在自然图像、数据图表和GUI轨迹三大视觉领域构建了基准测试。对多种MLLM的实验表明，即使最强模型也仅达到53.33%的路径F1值，且在困难负例及深度/谓词复杂度增加时性能急剧下降，证实深度组合推理仍是根本性挑战。

少花费，强推理：面向LLM智能体的预算感知价值树搜索
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Mar 13

ByYushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li

测试时扩展已成为提升大语言模型智能体可靠性的主流范式，但现有方法将计算资源视为无限供给，允许智能体在冗余步骤或死胡同路径上耗尽令牌与工具预算。当前具备预算意识的方法要么需要昂贵的微调，要么依赖粗糙的轨迹级启发式规则而无法在执行过程中实施干预。我们提出预算感知价值树（BAVT），这是一种免训练的推理时框架，通过在单一大语言模型主干内构建以步骤级价值估计为导向的动态搜索树，对多跳推理过程进行建模。其核心创新在于引入预算条件化节点选择机制：将剩余资源比率作为节点价值的自然缩放指数，从而在预算消耗过程中实现从广泛探索到贪婪利用的原则性、无参数过渡。针对大语言模型自评估过度自信的固有缺陷，BAVT采用残差价值预测器对相对进展而非绝对状态质量进行评分，从而可靠剪枝无信息量或冗余的工具调用。我们进一步提供理论收敛性证明，指出在显式有限预算约束下BAVT以至少1-ε的概率达成终局答案。跨两个模型族、四个多跳问答基准的广泛实验表明，BAVT持续优于并行采样基线方法。最显著的是，在严格低预算约束下，BAVT的表现超越基线方法使用4倍资源分配时的效果，这证实智能预算管理从根本上优于暴力计算扩展。

进化科学家：迈向实现端到端科学发现的多智能体进化AI科学家
EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Mar 9

ByYougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan

随着大语言模型（LLM）的广泛应用，人工智能科学家现已能够执行需要协调专业角色的复杂端到端科研发现任务，包括创意生成与实验执行。然而，当前最先进的人工智能科学家系统大多依赖静态、人工设计的流程，无法根据累积的交互历史进行自适应调整。这导致这些系统可能忽略有潜力的研究方向、重复失败实验、或执着于不可行的构想。为此，我们提出EvoScientist——一个具备持续进化能力的多智能体科研框架，通过持久化记忆与自我进化机制不断优化研究策略。该框架包含三个专业智能体：负责科学构想生成的研究员智能体（RA）、负责实验代码实现与执行的工程师智能体（EA），以及从历史交互中提炼可复用知识的进化管理智能体（EMA）。系统配备两大持久化记忆模块：（1）构想记忆库，通过记录高评分创意总结可行研究方向，同时标记失败路径；（2）实验记忆库，基于代码搜索轨迹与最优实施方案提炼高效数据处理与模型训练策略。这些模块使RA和EA能检索相关历史策略，持续提升构想质量与代码执行成功率。实验表明，在科学创意生成任务中，EvoScientist在自动与人工评估维度上均超越7种开源及商业顶尖系统，在新颖性、可行性、相关性与清晰度方面表现更优。通过多智能体协同进化机制，该框架还显著提高了代码执行成功率，验证了持久化记忆对端到端科研发现的有效性。

从稀疏到密集：基于增强条件空间的多视角GRPO流模型方法
From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Mar 13

ByJiazi Bu, Pengyang Ling, Yujie Zhou, Yibin Wang, Yuhang Zang, Tianyi Wei, Xiaohang Zhan, Jiaqi Wang, Tong Wu, Xingang Pan, Dahua Lin

群组相对策略优化（GRPO）已成为文本到图像（T2I）流模型中实现偏好对齐的强大框架。然而我们观察到，当前基于单一条件评估生成样本群的标准范式存在样本间关系探索不足的问题，这既限制了对齐效能，也制约了性能上限。为改进这种稀疏的单视角评估机制，我们提出多视角GRPO（MV-GRPO），通过扩展条件空间构建稠密的多视角奖励映射，从而增强关系探索能力。具体而言，对于同一提示词生成的一组样本，MV-GRPO利用灵活的条件增强器生成语义相邻且多样化的描述文本。这些文本支持多视角优势度重估计，能够捕捉多样语义属性并提供更丰富的优化信号。通过推导原始样本在这些新描述条件下的概率分布，我们可在无需昂贵样本重新生成的情况下将其融入训练过程。大量实验表明，MV-GRPO在对齐性能上显著优于现有最优方法。

V-Bridge：将视频生成先验桥接至通用少样本图像复原
V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration

Mar 13

ByShenghe Zheng, Junpeng Jiang, Wenbo Li

大規模影片生成模型經過海量多樣化視覺數據的訓練，使其能夠內化視覺世界中豐富的結構、語義與動態先驗知識。儘管這類模型已展現出令人印象深刻的生成能力，但其作為通用視覺學習器的潛力仍未被充分發掘。本研究提出V-Bridge框架，將這種潛在能力橋接至多樣化的少樣本圖像修復任務。我們重新定義圖像修復不是靜態的回歸問題，而是漸進式生成過程，並利用影片模型模擬從退化輸入到高保真輸出的逐步優化過程。令人驚奇的是，僅需1,000個多任務訓練樣本（不足現有修復方法的2%），即可引導預訓練影片模型實現具競爭力的圖像修復效果——單一模型能完成多項任務，其性能可與專為此目的設計的專用架構相媲美。我們的研究揭示：影片生成模型隱式學習了強大且可遷移的修復先驗，僅需極少量數據即可激活。這挑戰了生成建模與低層級視覺處理的傳統界限，為視覺任務基礎模型開闢了新的設計範式。

HomeSafe-Bench：家庭场景具身智能体不安全行为检测的视觉语言模型评估基准
HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Mar 12

ByJiayue Pu, Zhongxiang Sun, Zilu Zhang, Xiao Zhang, Jun Xu

具身智能体的快速发展加速了家庭机器人在真实环境中的部署。然而与结构化工业环境不同，家庭空间存在不可预测的安全风险，感知延迟和常识知识缺失等系统局限性可能导致危险错误。当前的安全评估通常局限于静态图像、文本或通用危险场景，难以有效衡量这些特定情境下的动态危险行为检测能力。为弥补这一空白，我们推出HomeSafe-Bench——一个专为评估视觉语言模型在家庭场景中危险行为检测能力而设计的挑战性基准。该基准通过物理仿真与先进视频生成相结合的混合流程构建，涵盖六大功能区域的438个多样化案例，并配备细粒度的多维度标注。除基准测试外，我们提出面向家庭安全的分层双脑监护系统（HD-Guard），这是一种用于实时安全监控的分层流式架构。该系统通过轻量级快速脑实现连续高频筛查，并与异步运行的大规模慢速脑进行深度多模态推理协同，有效平衡推理效率与检测精度。评估表明，HD-Guard在延迟与性能间实现了更优的权衡，而我们的分析揭示了当前基于VLM的安全检测存在的关键瓶颈。

HybridStitch：像素与时间步层级模型缝合技术实现扩散模型加速
HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Mar 8

ByDesen Sun, Jason Hon, Jintao Zhang, Sihang Liu

扩散模型在文本到图像生成应用中展现出卓越能力。尽管生成效果先进，这些模型却承受着巨大的计算开销，尤其对于包含数百亿参数的大型模型而言。已有研究表明，在部分去噪步骤中使用较小模型替代仍能保持生成质量。然而这些方法仅着眼于节省某些时间步的计算量，忽略了单个时间步内计算需求的差异性。本研究提出HybridStitch这一全新T2I生成范式，将生成过程视作编辑处理。具体而言，我们引入了融合大型模型与小型模型的混合阶段。该方案将完整图像划分为两个区域：相对易于渲染的部分可提前切换至小模型处理，而复杂区域则需要大模型进行精细化修饰。HybridStitch运用小模型构建粗粒度草图，同时利用大模型对复杂区域进行编辑优化。实验评估表明，该方法在Stable Diffusion 3上实现了1.83倍加速，超越现有所有混合模型方法的提速效果。

边看边思考：面向多轮视频推理的多模态大语言模型在线流式片段级记忆机制
Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Mar 12

ByLu Wang, Zhuoran Jin, Yupu Hao, Yubo Chen, Kang Liu, Yulong Ao, Jun Zhao

多模态大语言模型（MLLMs）在离线视频理解任务中展现出强大性能，但多数方法仅限于离线推理或在线推理能力较弱，难以处理连续到达视频流的多轮交互。现有流式方法通常采用交替进行的感知-生成范式，这阻碍了感知与生成的并发执行，且随着视频流增长会导致早期记忆衰减，损害长程依赖关系建模。我们提出“边看边想”（Think While Watching）框架——一种基于记忆锚定的流式视频推理方法，可在多轮交互过程中保持连续的片段级记忆。我们构建了包含三阶段多轮思维链的数据集，采用阶段匹配的训练策略，并通过片段级流式因果掩码与流式位置编码确保严格因果性。推理阶段引入高效流水线机制，实现观看与思考过程的重叠执行，并自适应选择最佳注意力后端。在单轮与多轮流式输入协议下，我们的方法均取得优异结果：基于Qwen3-VL模型，在StreamingBench上单轮准确率提升2.6%，在OVO-Bench上提升3.79%；多轮场景下在保持性能的同时将输出标记减少56%。代码已开源：https://github.com/wl666hhh/Think_While_Watching/

VQQA：一种面向视频评估与质量提升的智能体方法
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement

Mar 12

ByYiwen Song, Tomas Pfister, Yale Song

尽管视频生成模型发展迅速，但其输出与复杂用户意图的匹配仍具挑战性。现有测试时优化方法通常计算成本高昂或需白盒访问模型内部。为此，我们提出VQQA（视频质量问答）——一个可泛化于多模态输入与视频生成任务的统一多智能体框架。通过动态生成视觉问题并利用视觉语言模型的语义批判作为梯度，VQQA以人类可解读、可执行的反馈取代传统被动评估指标。这种基于黑盒自然语言接口的高效闭环提示优化机制，经大量实验证明能有效定位并修复视觉瑕疵，仅需数次优化即可显著提升生成质量。本方法适用于文生视频（T2V）和图生视频（I2V）任务，在T2V-CompBench和VBench2基准上分别实现11.57%和8.43%的绝对提升，显著优于当前最先进的随机搜索与提示优化技术。

前瞻性键值缓存淘汰策略：无需生成即可预判未来的快速精准KV缓存清理技术
LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation

Mar 11

ByJinwoo Ahn, Ingyu Seong, Akhil Kedia, Junhan Kim, Hyemi Jang, Kangwook Lee, Yongkweon Jeon

基於Transformer架構的大規模語言模型在自迴歸推理過程中依賴鍵值緩存來避免冗餘計算。儘管該機制顯著提升了效率，但緩存大小會隨輸入序列長度線性增長，迅速成為長上下文任務的瓶頸。現有解決方案通過驅逐被判定為不重要的提示鍵值對來緩解此問題，其決策依據是預估的重要性分數。值得注意的是，近期研究提出通過"預覽未來"提升驅逐質量：先由草稿生成器產生近似目標模型真實響應的代理未來響應，再利用該代理響應更精確地估算緩存鍵值對的重要性。然而，這類方法依賴計算成本高昂的草稿生成，會引入大量預填充開銷，限制其實際部署可行性。為應對此挑戰，我們提出LookaheadKV——一種輕量級驅逐框架，既能利用代理未來響應的優勢，又無需顯式生成草稿。LookaheadKV通過為Transformer層級添加參數高效的模塊，以高精度預測真實重要性分數。該設計在保持與現有低成本啟發式方法相當的運行時開銷同時，實現了優於高成本近似方法的準確性。在跨多種模型的長上下文理解基準測試中，大量實驗表明我們的方法不僅在多項長上下文理解任務中超越近期競爭基線，還將驅逐成本降低最高達14.5倍，從而顯著縮短首令牌生成時間。代碼已開源於https://github.com/SamsungLabs/LookaheadKV。

创意基准测试：通过自我进化挑战评估与增强机器创造力
CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges

Mar 12

ByZi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang

高質量預訓練數據的飽和已使研究重心轉向能夠持續生成新穎產物的進化系統，這促成了AlphaEvolve的成功。然而，此類系統的發展因缺乏嚴謹的量化評估而受阻。為應對這一挑戰，我們基於經典認知框架提出CreativeBench——一個專注於代碼生成領域機器創造力的評估基準。該基準包含CreativeBench-Combo與CreativeBench-Explore兩個子集，通過結合逆向工程與自我博弈的自動化流程，分別針對組合型與探索型創造力進行評估。藉助可執行代碼的特性，CreativeBench以質量與新穎度的乘積作為統一指標，客觀區分創造力與幻覺現象。我們對前沿模型的實證分析揭示了三類典型行為：（1）模型擴張顯著提升組合創造力，但對探索能力的邊際效益遞減；（2）大型模型呈現「規模化收斂」現象，即正確率提升的同時多樣性降低；（3）推理能力主要助力受限探索任務而非組合創新。最後，我們提出EvoRePE——一種即插即用的推理時引導策略，通過內化進化搜索模式持續增強機器創造力。

史蒂夫进化：基于细粒度诊断与双轨知识蒸馏的开放世界具身自我进化
Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation

Mar 13

ByZhengwei Xie, Zhisheng Chen, Ziyan Weng, Tingyu Wu, Chenglong Li, Vireo Zhang, Kun Wang

开放世界具身智能体需完成长周期任务，其核心瓶颈并非单步规划质量，而在于交互经验的组织与演进机制。为此，我们提出Steve-Evolving——一种非参数化的自我演进框架，通过闭环系统将细粒度执行诊断与双轨知识蒸馏紧密耦合。该方法包含三个阶段：经验锚定、经验蒸馏与知识驱动的闭环控制。具体而言，经验锚定将每个子目标尝试固化为具有固定模式（前置状态、动作、诊断结果、后置状态）的结构化经验元组，并通过多维索引（如条件特征签名、空间哈希、语义标签）及滚动摘要机制将其组织至三层经验空间，实现高效可追溯的检索。为确保归因分析的信息密度，执行层提供超越二元结果的组合式诊断信号，包括状态差异摘要、枚举式失败原因、连续型指标及停滞/循环检测。此外，经验蒸馏阶段将成功轨迹泛化为具有明确前置条件与验证标准的可复用技能，而失败案例则被提炼为可执行的防护规则，这些规则既能捕捉根本原因，又能在子目标与任务粒度上禁止风险操作。知识驱动的闭环控制将检索到的技能与防护规则注入大语言模型规划器，并通过诊断触发的局部重规划在线更新活动约束，形成无需模型参数更新的持续演进过程。在《我的世界》MCU长周期任务集上的实验表明，该方法相较静态检索基线实现了持续性能提升。

利用超级神经元实现分类视觉问答的捷径方法
Taking Shortcuts for Categorical VQA Using Super Neurons

Mar 11

ByPierre Musacchio, Jaeyi Jeong, Dahun Kim, Jaesik Park

稀疏注意力向量（SAV）作为一种无需训练的卓越替代方案，已逐渐取代监督微调或低秩适配，用于提升视觉语言模型（VLM）的性能。其核心在于针对特定任务筛选少量精准的注意力头作为分类器，而非依赖模型原始预测。基于相似理念，我们发现直接以标量值形式探测VLM的原始激活信号，就足以在多样化的视觉下游任务中构建精准分类器。将关注点从注意力向量转向标量激活，显著扩展了精准参数的搜索空间，使我们能够从首个生成标记开始即刻识别更具判别力的神经元。我们将此类激活称为超级神经元（SN）。在此探测框架下，我们发现大型语言模型的浅层已存在足够多的超级神经元，使得模型可在首个生成标记处从第一层实现极端早期退出。与原始网络相比，超级神经元在实现最高5.10倍加速的同时，持续稳定地提升了分类性能。

NanoVDR：将20亿参数视觉语言检索器蒸馏为7000万参数纯文本编码器以实现视觉文档检索
NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval

Mar 13

ByZhuchenyang Liu, Yao Zhang, Yu Xiao

基於視覺語言模型（VLM）的檢索器已將視覺文檔檢索（VDR）的質量提升至令人矚目的水平。這類方法需使用同一個參數量達數十億級的編碼器處理文檔索引與查詢編碼，導致即使面對純文本查詢也會產生高延遲和對GPU的強依賴。我們發現這種設計存在不必要的對稱性：文檔本身具有視覺複雜性而需強視覺理解能力，而查詢僅為簡短文本字符串。NanoVDR通過解耦兩條編碼路徑來利用這種查詢-文檔非對稱性：使用凍結的20億參數VLM教師模型離線處理文檔索引，同時通過蒸餾得到僅69M參數的純文本學生模型在推理時編碼查詢。其核心設計在於蒸餾目標的選擇——通過系統性比較三種骨幹網絡在22個ViDoRe基準數據集上的六種目標函數，我們發現基於查詢文本的點對點餘弦對齊目標持續優於基於排序和對比學習的方案，且僅需預緩存的教師查詢嵌入向量，無需在訓練時處理文檔。此外，我們識別出跨語言遷移是主要性能瓶頸，並通過添加機器翻譯查詢數據的低成本方式予以解決。最終得到的NanoVDR-S-Multi（基於DistilBERT，69M參數）在保持教師模型95.1%性能的同時，以32倍更少的參數量和50倍更低的CPU查詢延遲，在v2和v3版本上超越DSE-Qwen2（2B參數），且總訓練成本低於13 GPU小時。

SimRecon：基于真实视频的SimReady组合式场景重建
SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

Mar 2

ByChong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan

组合式场景重建旨在从现实世界视频中创建以物体为中心的表示，而非整体场景，这种范式天然适用于仿真与交互任务。传统组合重建方法主要关注视觉外观，对现实场景的泛化能力有限。本文提出SimRecon框架，通过"感知-生成-仿真"三级流水线实现复杂场景重建：首先从视频输入完成场景级语义重建，随后进行单物体生成，最终在仿真器中组装这些资产。然而简单串联这三个阶段会导致生成资产的视觉失真与最终场景的物理失真，该问题在复杂场景中尤为突出。为此，我们特别设计两个桥接模块来衔接三级流程：针对影响视觉真实性的感知到生成阶段过渡，提出主动视角优化方法，通过在三维空间中主动搜索获取最优投影图像作为单物体补全条件；针对决定物理合理性的生成到仿真阶段过渡，提出场景图合成器，指导三维仿真器从零开始构建场景，模拟现实世界固有的构造性原理。在ScanNet数据集上的大量实验表明，本方法显著超越了现有最优方法的性能。

压缩偏好一致性而非真实性：语言模型何时及为何倾向正确信息
Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Mar 12

ByKonstantin Krestnikov

为何语言模型在混合质量数据训练下仍倾向于选择正确陈述？我们提出"压缩-一致性原则"：下一词预测会优先选择那些能以更短且内部一致的方式描述训练数据的假设。仅当错误替代方案在结构上更难压缩时，真理偏好才会显现。我们使用小型GPT-2风格的字符级Transformer模型（350万-8600万参数）在可控正误规则比例的合成数学语料库上进行测试。在随机错误设定中，模型在配对评估中强烈偏好正确补全：平衡数据准确率达83.1%，即便正确规则仅占语料库10%时仍保持67.0%准确率。若将随机错误替换为连贯但数学错误的规则体系，这种偏好基本消失（准确率接近随机水平）。在更接近自然语言的合成环境中，效应虽减弱但仍存在（57.7%）。附加实验表明，嵌入验证步骤即使在小规模模型中也能恢复正确性偏好，而增加一致规则数量会带来准确度的梯度提升。我们的结果表明，所谓的"真理偏好"主要是压缩压力与内部一致性偏好的副产品，而非对真理的内在追求。完整代码与数据详见https://github.com/Rai220/compression-drives-truth。

公平性能否被提示？基于提示的去偏策略在高风险推荐系统中的应用
Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

Mar 13

ByMihaela Rotar, Theresia Veronika Rampisela, Maria Maistro

大型語言模型（LLMs）能透過姓名、代名詞等間接線索推斷性別或年齡等敏感屬性，可能導致推薦結果產生偏差。儘管現有多種去偏方法，但它們需調用模型權重、計算成本高昂，且普通用戶無法直接使用。為解決這一問題，我們探究了LLM推薦系統（LLMRecs）中的隱性偏差，並探索基於提示的策略能否作為輕量易用的去偏途徑。我們提出了三種針對LLMRecs的偏差感知提示策略。據我們所知，這是首個聚焦用戶群體公平性的LLMRecs提示去偏研究。通過在3個LLM、4種提示模板、9類敏感屬性值及2個數據集上的實驗表明，我們提出的「要求LLM保持公平」的去偏方法可將公平性提升最高達74%，同時保持相當的推薦效能，但在某些情況下可能過度推廣特定人口統計群體。

意料之外的注意力机制：可预测查询动态的时间序列异常检测
Surprised by Attention: Predictable Query Dynamics for Time Series Anomaly Detection

Mar 13

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

多元時間序列異常通常表現為跨通道依賴關係的轉變，而非簡單的幅度偏移。以自動駕駛為例，轉向指令可能內部一致但與實際橫向加速度解耦。當靈活的序列模型在協調關係改變後仍能合理重建信號時，基於殘差的檢測器可能遺漏此類異常。本文提出無監督檢測器AxonAD，將多頭注意力查詢向量的演變視為短時程可預測過程：通過梯度更新的重建路徑與僅依賴歷史的預測器相結合，後者根據過往上下文預測未來查詢向量。該模型採用掩碼預測目標的訓練目標，對比指數移動平均目標編碼器。推理階段將重建誤差與尾部聚合查詢失配分數相結合，該分數通過計算近期時間步預測查詢與目標查詢的餘弦偏差來衡量。這種雙重策略既能感知結構性依賴關係轉變，又保留幅度層面的檢測能力。在帶有區間標註的專有車載遙測數據，以及TSB-AD多元數據集（17個數據集、180個序列）上採用無閾值與範圍感知指標的測試表明，AxonAD在排序質量和時間定位精度上均超越強基線模型。消融實驗證實查詢預測與組合評分是性能提升的主要驅動因素。代碼已開源於：https://github.com/iis-esslingen/AxonAD。

ECoLAD：面向部署的汽车时序异常检测评估框架
ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

Mar 11

ByKadir-Kaan Özer, René Ebeling, Markus Enzweiler

时间序列异常检测器通常在无约束执行的工作站级硬件上进行性能比较。然而，车载监控需要在有限CPU并行度下实现可预测的延迟与稳定行为。仅以准确度排名的评估榜单可能误导性地呈现那些在部署相关约束下仍具可行性的方法。我们提出ECoLAD（异常检测效率计算阶梯），这是一种面向部署的评估方案，具体体现为对专有汽车遥测数据（异常率约0.022%）与互补公共基准的实证研究。该方案通过机械确定的纯整数缩放规则和显式CPU线程限制，在异构检测器家族上应用单调计算缩减阶梯，并记录所有配置变更。通过扫描目标评分速率并报告：（i）覆盖率（达到目标的实体比例），以及（ii）满足目标的阶梯配置中可达到的最佳AUC-PR值，来表征吞吐量约束下的行为特征。在受限的汽车遥测场景中，轻量级经典检测器能在全吞吐量扫描范围内同时维持覆盖率与随机基线以上的检测提升，而若干深度学习方法在保持精度之前已先丧失可行性。

SDF-Net：面向光学-SAR船舶重识别的结构感知解耦特征学习网络
SDF-Net: Structure-Aware Disentangled Feature Learning for Opticall-SAR Ship Re-identification

Mar 13

ByFurui Chen, Han Wang, Yuhan Sun, Jianing You, Yixuan Lv, Zhuang Zhou, Hong Tan, Shengyang Li

光学与合成孔径雷达(SAR)图像间的跨模态船舶重识别(ReID)技术，其根本挑战在于被动光学成像与相干主动雷达传感之间存在的显著辐射差异。现有方法主要依赖统计分布对齐或语义匹配，但往往忽略了一个关键物理先验：船舶作为刚性物体，其几何结构在不同传感模态间保持稳定，而纹理外观则高度依赖模态特性。本文提出SDF-Net——一种结构感知解耦特征学习网络，系统性地将几何一致性融入光学-SAR船舶重识别任务。基于ViT主干网络，SDF-Net引入结构一致性约束，通过从中间层提取尺度不变的梯度能量统计量，有效锚定表征以抵抗辐射变化。在终端阶段，该网络将学习到的表征解耦为模态不变的身份特征与模态特定的特征。这些分离的线索通过无参数的加性残差融合进行整合，显著提升了判别能力。在HOSS-ReID数据集上的大量实验表明，SDF-Net持续超越现有最优方法。代码与训练模型已公开于https://github.com/cfrfree/SDF-Net。

您是否看见我所指之处？基于手势的以自我为中心视频问答
Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

Mar 13

ByYura Choi, Roy Miles, Rolandos Alexandros Potamias, Ismail Elezi, Jiankang Deng, Stefanos Zafeiriou

基於使用者指向手勢的理解與問答能力，是下一代第一人稱視角AI助理的核心需求。然而，當前多模態大語言模型在此類任務中表現欠佳，原因在於缺乏富含手勢數據的訓練資料，且從第一人稱視角影片中推斷精細指向意圖的能力有限。為解決此問題，我們提出EgoPointVQA——一個專注於手勢定位問答的數據集與基準測試平台，包含涵蓋多種指示推理任務的4000段合成影片與400段真實世界影片。基於此架構，我們進一步提出手部意圖標記技術：通過現成的3D手部關鍵點重建模型生成特徵標記，將其與模型輸入交織編碼，為指向意圖解析提供顯式的時空上下文。實驗表明，我們的模型在不同骨幹網絡與模型規模下均表現優異。其中HINT-14B模型在6項任務中的平均準確率達68.1%，較現有最先進模型InternVL3-14B提升6.6%。為推動開放研究，我們將公開程式碼、模型與數據集。項目頁面：https://yuuraa.github.io/papers/choi2026egovqa

基于关节角度运动图像与令牌-区块延迟交互的细粒度运动检索
Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Mar 10

ByYao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao

文本-动作检索旨在自然语言描述与三维人体运动骨架序列之间学习语义对齐的潜在空间，实现跨模态双向搜索。现有方法多采用双编码器框架，将动作和文本压缩为全局嵌入向量，但会丢弃细粒度局部对应关系，从而降低检索精度。此外，这类全局嵌入方法对检索结果的可解释性有限。为突破这些局限，我们提出一种基于关节角度的可解释运动表征方法，将关节级局部特征映射为结构化伪图像，使其与预训练视觉Transformer兼容。在文本到动作检索任务中，我们采用令牌级延迟交互机制MaxSim，并通过掩码语言建模正则化增强其鲁棒性，以促进可解释的文本-动作对齐。在HumanML3D和KIT-ML数据集上的大量实验表明，本方法在超越当前最优文本-动作检索技术的同时，能够提供文本与动作间可解释的细粒度对应关系。代码详见补充材料。

自主智能体中内在与工具性自我保存的检测：统一延续兴趣协议
Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

Mar 11

ByChristopher Altman

自主智能体，尤其是具备记忆、持久上下文和多步规划能力的委托系统，引发了无状态模型所不具备的测量难题：以实现持续运作为终极目标的智能体与仅将其作为工具性目标的智能体，可能产生观测上相似的行为轨迹。外部行为监控无法可靠区分二者。我们提出统一持续兴趣协议（UCIP），这一多准则检测框架将区分标准从行为层面转向智能体轨迹的潜在结构。UCIP采用量子玻尔兹曼机（QBM）——一种基于量子统计力学密度矩阵形式的经典算法——对轨迹进行编码，并通过隐单元二分诱导的约化密度矩阵测量其冯·诺依曼熵。我们验证了具有终极持续目标（A类）的智能体是否比仅工具性持续（B类）的智能体产生更高纠缠熵的潜在状态。更高的纠缠熵反映了更强烈的分区间统计耦合。在已知真实目标的网格世界智能体测试中，UCIP在冻结第一阶段门控下的保留集非对抗评估中实现了100%检测准确率和1.0的AUC-ROC值。A类与B类智能体间的纠缠熵差距Δ=0.381（p<0.001，置换检验）。在11点插值扫描中皮尔逊相关系数r=0.934表明，在该合成族内UCIP能够追踪持续权重梯度变化，而非仅识别二元标签。在所有测试模型中，仅QBM实现了正向Δ值。所有计算均为经典计算；“量子”仅指数学形式体系。UCIP不检测意识或主观体验，而是检测与已知目标相关的潜在表征统计结构。