HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

21 papers found

SLA2：具可學習路由與量化感知訓練的稀疏線性注意力機制
SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Feb 13

ByJintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez

稀疏線性注意力（SLA）結合了稀疏注意力與線性注意力以加速擴散模型，並在影片生成任務中展現出卓越性能。然而存在兩點侷限：（i）SLA依賴啟發式分割規則，根據注意力權重大小將計算分配至稀疏或線性分支，此策略可能非最優；（ii）通過形式化分析SLA的注意力誤差，我們發現其與直接分解為稀疏和線性注意力的做法存在錯配。為此我們提出SLA2，其包含三項創新：（I）可學習路由模組動態決定每項注意力計算應採用稀疏或線性注意力；（II）更忠實的直接稀疏-線性注意力公式，通過可學習比例係數融合兩分支；（III）稀疏+低比特注意力架構，透過量化感知微調引入低比特注意力以降低量化誤差。實驗表明，在影片擴散模型中SLA2可實現97%的注意力稀疏度，在保持生成質量的同時將注意力計算速度提升18.6倍。

AutoWebWorld：透過有限狀態機合成無限可驗證的網路環境
AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Feb 15

ByYifan Wu, Yiran Peng, Yiyu Chen, Jianhao Ruan, Zijie Zhuang, Cheng Yang, Jiayi Zhang, Man Chen, Yenchi Tseng, Zhaoyang Yu, Liang Chen, Yuyao Zhai, Bang Liu, Chenglin Wu, Yuyu Luo

自主網路圖形使用者介面代理的效能，高度依賴其訓練資料的品質與數量。然而，一個根本性瓶頸始終存在：從真實網站收集互動軌跡的成本高昂且難以驗證。由於底層狀態轉換具有隱蔽性，導致必須依賴不一致且昂貴的外部驗證器來評估步驟正確性。為解決此問題，我們提出AutoWebWorld——透過將網路環境建模為有限狀態機，並運用編碼代理將FSM轉換為互動式網站的新型可控制可驗證網路環境合成框架。與真實網站中狀態轉換隱含的特性不同，AutoWebWorld明確定義所有狀態、操作及轉換規則，從而實現程式化驗證：操作正確性可根據預定義規則檢查，任務成功與否則透過是否抵達FSM圖中的目標狀態來確認。AutoWebWorld實現了全自動搜尋驗證流程，僅以每軌跡0.04美元的成本，從29個多元網路環境生成超過11,663條驗證軌跡。使用此合成資料進行訓練能顯著提升真實場景效能：我們的7B參數Web GUI代理在WebVoyager基準測試中，於15步內超越所有基線模型。更值得注意的是，我們觀察到明確的規模化規律：隨著合成資料量增加，代理在WebVoyager與Online-Mind2Web的效能呈現持續提升趨勢。

RynnBrain：開放式具身基礎模型
RynnBrain: Open Embodied Foundation Models

Feb 13

ByRonghao Dang, Jiayan Guo, Bohan Hou, Sicong Leng, Kehan Li, Xin Li, Jiangpin Liu, Yunxuan Mao, Zhikai Wang, Yuqian Yuan, Minghao Zhu, Xiao Lin, Yang Bai, Qian Jiang, Yaxi Zhao, Minghua Zeng, Junlong Gao, Yuming Jiang, Jun Cen, Siteng Huang, Liuyi Wang, Wenqiao Zhang, Chengju Liu, Jianfei Yang, Shijian Lu, Deli Zhao

儘管多模態基礎模型快速發展，具身智能領域仍缺乏一個能在真實世界時空動態中整合感知、推理與規劃的統一物理基礎模型。我們推出RynnBrain——一個開源時空基礎模型，專為具身智能設計。該模型在統一框架下強化四大核心能力：全面的自我中心理解、多樣化時空定位、物理基礎推理及物理感知規劃。RynnBrain系列包含三種基礎模型規模（2B、8B與30B-A3B MoE）及四種針對下游具身任務（即RynnBrain-Nav、RynnBrain-Plan與RynnBrain-VLA）或複雜空間推理任務（即RynnBrain-CoP）微調的後訓練變體。在對20個具身基準與8個通用視覺理解基準的廣泛評估中，RynnBrain基礎模型以顯著優勢大幅超越現有具身基礎模型。其後訓練模型組進一步驗證了RynnBrain基礎模型的兩大潛力：（一）實現物理基礎的推理與規劃；（二）作為可高效適配多樣具身任務的強預訓練骨幹。

CADEvolve：透過程式演化創建真實CAD模型
CADEvolve: Creating Realistic CAD via Program Evolution

Feb 18

ByMaksim Elistratov, Marina Barannikov, Gregory Ivanov, Valentin Khrulkov, Anton Konushin, Andrey Kuznetsov, Dmitrii Zhemchuzhnikov

電腦輔助設計（CAD）為工程與製造領域提供快速可編輯的建模方案。隨著人工智慧技術的突破，各類CAD任務現已可實現全自動化處理。然而，數據匱乏成為發展瓶頸：現有公開資料庫多數僅包含草圖拉伸序列，缺乏複雜操作、多工序組合及設計意圖表徵，導致模型微調效果受限。雖然有研究嘗試採用凍結視覺語言模型繞過此限制，但現有基礎模型對三維空間理解不足，常生成過於簡單或無效的程序。我們提出CADEvolve——基於演化演算法的流程與數據集，從簡單幾何基元出發，透過VLM引導的編輯與驗證機制，逐步建構出符合工業級複雜度的CAD程序。最終生成8,000個以可執行的CadQuery參數化生成器表達的複雜零件。經過多階段後處理與數據擴充，我們獲得包含130萬組腳本與渲染幾何配對的統一數據集，完整覆蓋CadQuery操作集。基於CADEvolve微調的VLM在Image2CAD任務中，於DeepCAD、Fusion 360和MCB三大基準測試均達到最先進水平。

掌握人形機器人末端效應器的開放詞彙視覺運動操控技術
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Feb 18

ByRunpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

人形機器人在開放環境中對任意物體進行視覺移動操作，需要精確的末端執行器控制能力，以及透過視覺輸入（如RGB-D影像）對場景具備泛化理解能力。現有方法基於真實世界的模仿學習，由於大規模訓練數據集獲取困難，其泛化能力受限。本文提出HERO新範式，結合大型視覺模型的強泛化能力與開放詞彙理解優勢，以及模擬訓練帶來的強控制性能，實現人形機器人的物體移動操作。我們通過設計精確的殘差感知末端執行器追蹤策略達成此目標，該策略融合經典機器人學與機器學習技術，包含：a) 利用逆運動學將殘差末端目標轉換為參考軌跡，b) 通過學習型神經網路正向運動學模型實現精確運動學計算，c) 目標調整機制，d) 重規劃功能。這些創新共同使末端執行器追蹤誤差降低3.2倍。我們運用此精確追蹤器構建模組化移動操作系統，利用開放詞彙大型視覺模型實現強視覺泛化能力。該系統能在從辦公室到咖啡廳等多樣真實環境中可靠操作各類日常物體（如馬克杯、蘋果、玩具），適應43公分至92公分高度的操作平面。通過模擬與真實環境的系統化模組測試及端到端驗證，我們證明了所提設計的有效性。我們相信本文的突破將為訓練人形機器人與日常物體互動開闢新途徑。

透過情境內共玩家推論實現多智能體協作
Multi-agent cooperation through in-context co-player inference

Feb 18

ByMarissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans

在自利智能體間實現合作始終是多智能體強化學習領域的根本性挑戰。近期研究表明，當「具備學習意識」的智能體能夠考量並塑造其協作對象的學習動態時，可誘導出相互合作的行為。然而，現有方法通常依賴對協作對象學習規則的硬編碼假設（這些假設往往不一致），或嚴格區分在快速時間尺度上更新的「樸素學習者」與觀察這些更新的「元學習者」。本文證實，序列模型的上下文學習能力無需硬編碼假設或顯式時間尺度分離即可實現對協作對象的學習意識。我們發現，通過讓序列模型智能體與多樣化的協作對象分佈進行對抗訓練，可自然誘導出上下文最優響應策略，這些策略在快速的情境內時間尺度上實質發揮著學習算法的作用。我們觀察到，既有研究中識別的合作機制——即易受勒索攻擊的特性驅動相互塑造——在此設定中自然湧現：上下文適應使智能體易受勒索攻擊，而由此產生的相互施壓（旨在塑造對手的上下文學習動態）最終促成了合作行為的學習。我們的研究結果表明，標準的序列模型分散式強化學習結合協作對象多樣性，為實現合作行為的學習提供了一條可擴展路徑。

MAEB：大規模音訊嵌入基準測試
MAEB: Massive Audio Embedding Benchmark

Feb 17

ByAdnan El Assadi, Isaac Chung, Chenghao Xiao, Roman Solomatin, Animesh Jha, Rahul Chand, Silky Singh, Kaitlyn Wang, Ali Sartaz Khan, Marc Moussa Nasser, Sufen Fong, Pengfei He, Alan Xiao, Ayush Sunil Munot, Aditya Shrivastava, Artem Gazizov, Niklas Muennighoff, Kenneth Enevoldsen

我們推出大規模音頻嵌入基準（MAEB），這是一個涵蓋語音、音樂、環境聲音及跨模態音頻-文本推理的30項任務的大規模基準，涉及100多種語言。我們評估了50多個模型，發現沒有單一模型能在所有任務中佔主導地位：對比式音頻-文本模型在環境聲音分類（如ESC50）表現出色，但在多語言語音任務（如SIB-FLEURS）上得分接近隨機；而語音預訓練模型則呈現相反模式。聚類任務對所有模型仍具挑戰性，即使最佳模型也僅取得中等成果。我們觀察到，擅長聲學理解的模型在語言任務上往往表現不佳，反之亦然。研究還表明，音頻編碼器在MAEB的表現與其在音頻大語言模型中的應用效果高度相關。MAEB源自包含98項任務的MAEB+集合，其設計在保持任務多樣性的同時降低評估成本，並可整合至MTEB生態系統，實現文本、圖像和音頻模態的統一評估。我們在https://github.com/embeddings-benchmark/mteb 開源MAEB及全部98項任務，同時提供代碼和排行榜。

空置的書架還是遺失的鑰匙？記憶提取是參數化事實性的瓶頸（注：標題採用意譯手法，將"Recall"譯為「記憶提取」以契合認知科學隱喻，同時保留「參數化事實性」這一專業術語的準確性。通過疑問句式引發讀者思考，並用「瓶頸」對應原文的"Bottleneck"概念，既保持學術嚴謹性又增強中文表達的流暢度。）
Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

Feb 15

ByNitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona

目前對大型語言模型的事實性評估普遍將所有錯誤等同視之，這掩蓋了失敗究竟源於知識缺失（空置的知識庫）還是已編碼事實的存取受限（遺失的存取鑰匙）。我們提出一種行為分析框架，以「事實」而非「問題」為單位描繪知識輪廓：先判斷每項事實是否已被編碼，再區分其可存取性——完全無法回憶、可直接回憶，或需透過推論運算（思考）方能回憶。為支持此種分析，我們引入WikiProfile基準數據集，該數據集透過以網路搜尋為基礎的LLM自動化流程構建。透過分析13個LLM產生的400萬條回應，我們發現前沿模型在我們的基準測試中已接近知識編碼飽和，GPT-5與Gemini-3對95–98%的事實完成編碼。然而「回憶」仍是主要瓶頸：許多原被歸因於知識缺失的錯誤，實則源於存取失敗。這類失敗具有系統性，且對長尾事實與反向問題影響尤甚。最後我們證實，思考能提升回憶效能並可挽回相當比例的失敗案例，這表明未來的進步可能更依賴於提升模型運用既有編碼知識的方法，而非單純擴大模型規模。

邁向人工智慧代理可靠性的科學之路
Towards a Science of AI Agent Reliability

Feb 18

ByStephan Rabanser, Sayash Kapoor, Peter Kirgis, Kangheng Liu, Saiteja Utpala, Arvind Narayanan

人工智慧代理正日益被部署執行重要任務。儘管標準基準測試的準確率分數顯示出快速進步，但許多代理在實際應用中仍持續失敗。這種差異凸顯了當前評估方法的根本局限：將代理行為壓縮為單一成功指標的做法，會掩蓋關鍵的操作缺陷。值得注意的是，這種評估忽略了代理在不同運行中的行為一致性、承受干擾的能力、失敗的可預測性，以及錯誤嚴重性的可控程度。基於安全關鍵工程的理念，我們透過提出十二項具體指標來建立整體性能畫像，將代理可靠性分解為四個關鍵維度：一致性、穩健性、可預測性和安全性。透過在兩個互補基準上評估14種代理模型，我們發現近期能力提升僅帶來可靠性的微小改善。通過揭示這些持續存在的局限，我們的指標不僅能補充傳統評估方法，更提供了分析代理如何運行、衰退與失效的工具框架。

世界行動模型即為零樣本策略
World Action Models are Zero-shot Policies

Feb 17

BySeonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

當前最先進的視覺-語言-動作模型在語義泛化方面表現卓越，但在新環境中對未見過的物理動作泛化能力仍顯不足。我們提出DreamZero——基於預訓練影片擴散架構的世界行動模型。與VLA不同，WAM通過預測未來世界狀態與動作來學習物理動態，將影片視為世界演變的密集表徵。通過聯合建模影片與動作，DreamZero能從異構機器人數據中有效學習多樣化技能，無需依賴重複示範。真實機器人實驗表明，相較頂尖VLA模型，該模型在新任務與新環境的泛化能力提升逾兩倍。關鍵在於，通過模型與系統優化，我們實現了140億參數的自迴歸影片擴散模型以7Hz頻率進行即時閉環控制。最後，我們展示了兩種跨具身遷移形式：僅使用其他機器人或人類的純影片示範，僅需10-20分鐘數據就能在未見過任務上實現超過42%的相對性能提升；更令人驚奇的是，DreamZero實現了少樣本具身適應，僅需30分鐘的互動數據即可遷移至新具身形態，同時保持零樣本泛化能力。

強化式快速權重與下一序列預測（注：標題採用學術界常見的"強化式"對應"Reinforced"，"快速權重"為"Fast Weights"標準譯法，"下一序列預測"精準對應Next-Sequence Prediction的技術概念）
Reinforced Fast Weights with Next-Sequence Prediction

Feb 18

ByHee Seung Hwang, Xindi Wu, Sanghyuk Chun, Olga Russakovsky

快速權重架構為長文本建模提供了一種極具潛力的替代方案，其記憶體開銷不隨文本長度增加而改變，突破了注意力機制變壓器的限制。然而，下一代詞預測訓練範式制約了該架構的發展潛力。NTP僅優化單一詞元預測，忽略前綴後多詞元間的語義連貫性。這使得通過動態更新參數存儲上下文信息的快速權重模型，只能學習到無法捕捉長距離依賴關係的次優表徵。我們提出REFINE強化學習框架，通過下一代序列預測目標訓練快速權重模型。該框架基於預測熵選取信息量豐富的詞元位置，生成多詞元推演軌跡，分配自監督的序列級獎勵，並採用群組相對策略優化進行模型優化。REFINE可應用於預訓練語言模型的完整訓練週期：中期訓練、後訓練及測試時訓練。在LaCT-760M和DeltaNet-1.3B上的實驗表明，REFINE在「大海撈針」檢索、長文本問答及LongBench多樣化任務中，均持續超越採用NTP的監督式微調方法。該框架為提升快速權重架構的長文本建模能力提供了高效通用的解決方案。

SAM 3D人体：鲁棒性全身人体网格重建
SAM 3D Body: Robust Full-Body Human Mesh Recovery

Feb 17

ByXitong Yang, Devansh Kukreja, Don Pinkus, Anushka Sagar, Taosha Fan, Jinhyung Park, Soyong Shin, Jinkun Cao, Jiawei Liu, Nicolas Ugrinovic, Matt Feiszli, Jitendra Malik, Piotr Dollar, Kris Kitani

我们推出SAM 3D人体模型（3DB），这是一个可提示的单图像全身三维人体网格重建（HMR）模型，在多样化真实场景中展现出最先进的性能、强大的泛化能力与稳定的精确度。3DB可同步估测人体躯干、足部与手部的三维姿态，是首个采用新型参数化网格表征——动量人体骨骼系统（MHR）的模型，该系统实现了骨骼结构与表面形态的解耦。3DB采用编码器-解码器架构，支持包括二维关键点与掩码在内的辅助提示，使用户能像操作SAM系列模型一样进行引导式推理。我们通过融合人工关键点标注、可微分优化、多视角几何与密集关键点检测的多阶段标注流程，获得了高质量标注数据。我们的数据引擎能高效筛选处理数据以确保多样性，特别收录非常规姿态与罕见成像条件。我们还提出了按姿态与外观分类的新型评估数据集，助力模型行为的精细化分析。实验表明，无论是在定性用户偏好研究还是传统定量分析中，本方法均优于现有技术，展现出卓越的泛化能力与显著提升。3DB与MHR均已开源。

基于自适应匹配蒸馏的少步生成优化
Optimizing Few-Step Generation with Adaptive Matching Distillation

Feb 7

ByLichen Bai, Zikai Zhou, Shitong Shao, Wenliang Zhong, Shuo Yang, Shuo Chen, Bojun Chen, Zeke Xie

分佈匹配蒸餿（DMD）作為一種高效的加速範式，其穩定性在「禁區」內常面臨挑戰——這些區域中真實教師提供不可靠指導，而虛擬教師產生的排斥力不足。本研究提出統一優化框架，將現有方法重新闡釋為避開此類失真區域的隱式策略。基於此洞見，我們引入自校正機制「自適應匹配蒸餿」（AMD），利用獎勵代理顯式檢測並逃離禁區。AMD通過結構化信號分解動態優先校正梯度，並採用排斥景觀銳化技術構建陡峭能量壁壘以抵禦失敗模式坍縮。在圖像與視頻生成任務（如SDXL、Wan2.1）及嚴謹基準測試（如VBench、GenEval）上的大量實驗表明，AMD顯著提升樣本保真度與訓練魯棒性。例如，AMD將SDXL的HPSv2分數從30.64提升至31.25，超越現有頂尖基準方法。這些發現驗證了在禁區內顯式修正優化軌跡對於突破少步數生成模型性能瓶頸的關鍵作用。

基于人类反馈的个性化智能体学习
Learning Personalized Agents from Human Feedback

Feb 18

ByKaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini

现代人工智能代理虽功能强大，却往往难以契合用户独特且动态变化的个性化偏好。现有方法通常依赖静态数据集，或通过交互历史训练隐式偏好模型，或将用户画像编码于外部记忆。然而这些方法对新用户及随时间演变的偏好适应性不足。我们提出基于人类反馈的个性化代理（PAHF）框架，该框架通过显式用户记忆库从实时交互中持续学习，实现在线个性化。PAHF构建了三步循环机制：（1）行动前寻求澄清以消除歧义；（2）基于记忆库检索的偏好执行行动；（3）整合行动后反馈以更新偏好漂移时的记忆。为评估该能力，我们开发了四阶段评估流程及具身操作与在线购物双基准测试。这些基准可量化代理从零学习初始偏好及适应角色转变的能力。理论分析与实证结果表明，显式记忆与双反馈通道的融合至关重要：PAHF的学习速度显著提升，持续超越无记忆与单通道基线模型，既降低了初始个性化误差，又实现了对偏好漂移的快速适应。

MMA：多模态记忆智能体
MMA: Multimodal Memory Agent

Feb 18

ByYihao Lu, Wanru Cheng, Zeyu Zhang, Hao Tang

長時序多模態智能體依賴外部記憶系統，但基於相似度的檢索常會返回陳舊、低可信度或相互衝突的記憶項，從而引發過度自信的錯誤。我們提出多模態記憶智能體（MMA），通過綜合來源可信度、時間衰減和衝突感知的網絡共識機制，爲每個檢索到的記憶項動態分配可靠性評分，並利用該信號重新加權證據，在支持不足時主動棄權。我們同時推出MMA-Bench——一個通過程序化生成的基準測試平臺，用於在可控的說話者可信度與結構化圖文矛盾條件下研究信念動態。借助該框架，我們發現了"視覺安慰劑效應"，揭示瞭如何基於RAG的智能體從基礎模型中繼承潛在的視覺偏差。在FEVER數據集上，MMA在保持基準準確率的同時將方差降低35.2%並提升選擇效用；在安全導向的LoCoMo數據集中，特定配置可提升可操作準確率並減少錯誤答案；在MMA-Bench的視覺模式下，MMA達到41.18%的B類準確率，而基準模型在相同協議下崩潰至0.0%。代碼地址：https://github.com/AIGeeksGroup/MMA。

高效文本引導卷積適配器在擴散模型中的應用
Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Feb 16

ByAryan Das, Koushik Biswas, Swalpa Kumar Roy, Badri Narayana Patro, Vinay Kumar Verma

我們推出 Nexus 適配器——一種基於擴散框架、專為結構保持條件生成（SPCG）設計的新型文本引導高效適配器。近期，結構保持方法在條件式影像生成領域取得顯著成果，其透過基礎模型處理提示條件，並使用適配器接收結構輸入（如素描或深度圖）。然而這類方法效率低下，有時適配器所需參數量甚至與基礎架構相當。由於擴散模型本身訓練成本高昂，倍增參數量極不經濟，且此類適配器未考慮輸入提示，導致其僅能優化結構輸入而無法對提示語作出最佳回應。為解決上述難題，我們提出兩種由提示語與結構輸入共同引導的高效適配器：Nexus Prime 與 Slim。每個 Nexus 區塊皆融入交叉注意力機制，實現豐富的多模態條件控制，使適配器在保持結構的同時更能理解輸入提示。我們對所提模型進行大量實驗，結果顯示 Nexus Prime 適配器僅需增加 800 萬參數（相較於 T2I-Adapter 基準模型），即可顯著提升效能。此外，我們還推出輕量版 Nexus Slim 適配器，其參數量比 T2I-Adapter 少 1800 萬，仍能達到頂尖性能。程式碼：https://github.com/arya-domain/Nexus-Adapters

现实世界中的情境感知学习
Learning Situated Awareness in the Real World

Feb 18

ByChuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang

人类感知的核心要素之一是情境感知能力，即理解自身与周围物理环境的关系并基于情境推理可能行为的能力。然而，现有多模态基础模型（MFM）的评测基准大多聚焦于环境中心的空间关系（场景中物体间的关系），而忽视了需要基于智能体视角、姿态和运动进行推理的观察者中心关系。为弥补这一空白，我们推出SAW-Bench（现实世界情境感知基准），这是一个利用真实世界视频评估具身情境感知能力的新型基准。该基准包含786段使用Ray-Ban Meta（第二代）智能眼镜在多样室内外环境中自主拍摄的视频，以及2,071组人工标注的问答对，通过六类感知任务探究模型的观察者中心理解能力。综合评估显示，即使表现最优的MFM模型Gemini 3 Flash，其与人类表现仍存在37.66%的差距。除这一差距外，深度分析还揭示了若干重要发现：例如模型虽能利用具身视频中的部分几何线索，却常无法推断连贯的相机几何参数，导致系统性空间推理错误。我们将SAW-Bench定位为具身空间智能的评测基准，推动研究从被动观察转向对物理 grounded 的观察者中心动态的理解。

不確定性感知的醫療影像視覺-語言分割技術
Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Feb 16

ByAryan Das, Tanishq Rachamalla, Koushik Biswas, Swalpa Kumar Roy, Vinay Kumar Verma

我們提出了一種新穎的不確定性感知多模態分割框架，該框架同時利用放射影像與相關臨床文本實現精準醫療診斷。我們設計了具備輕量級狀態空間混合器（SSMix）的模態解碼注意力模塊（MoDAB），以實現高效的跨模態融合與長程依賴建模。為在模糊情況下引導學習，我們提出頻譜熵不確定性（SEU）損失函數，通過統一目標聯合捕捉空間重疊度、頻譜一致性與預測不確定性。在影像品質較差的複雜臨床情境中，此設計能有效提升模型可靠性。在QATA-COVID19、MosMed++和Kvasir-SEG等多個公開醫學數據集上的大量實驗表明，我們的方法在實現卓越分割性能的同時，計算效率顯著優於現有頂尖（SoTA）方案。實驗結果凸顯了在不確定性建模與結構化模態對齊在視覺-語言醫療分割任務中的重要性。代碼地址：https://github.com/arya-domain/UA-VLS

BiManiBench：评估多模态大语言模型双手协调能力的层级化基准
BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

Feb 9

ByXin Wu, Zhixuan Liang, Yue Ma, Mengkang Hu, Zhiyuan Qin, Xiu Li

多模态大语言模型（MLLMs）显著推动了具身智能的发展，将其作为机器人智能的基准测试工具已成为关键趋势。然而现有框架主要局限于单臂操作任务，未能体现双手协作（如抬起重锅）所需的时空协调能力。为此，我们提出分层基准测试框架BiManiBench，从三个层面评估MLLMs：基础空间推理能力、高层动作规划能力及低层末端执行器控制能力。该框架通过隔离双臂可达性、运动学约束等独特挑战，有效区分感知幻觉与规划失误。对30余个前沿模型的分析表明：尽管MLLMs具备较强的高层推理能力，但在双臂空间定位与控制方面表现不佳，频繁出现双臂相互干扰和动作时序错误。这些发现揭示出现有范式对运动学互约束关系缺乏深层理解，未来研究需重点关注双臂防碰撞机制与细粒度时序规划。

多轮对话中的视觉记忆注入攻击
Visual Memory Injection Attacks for Multi-Turn Conversations

Feb 17

ByChristian Schlarmann, Matthias Hein

生成式大型视觉语言模型（LVLM）近期取得了显著性能突破，用户规模正迅速扩大。然而在长上下文多轮对话场景下的安全性研究仍存在明显空白。本文研究了一种现实攻击场景：攻击者将篡改图像上传至网络/社交媒体，良性用户下载该图像并作为LVLM的输入。我们提出的新型隐蔽视觉记忆注入（VMI）攻击具有以下特性：在正常提示下LVLM表现正常，但当用户给出触发式提示时，模型会输出特定预设目标信息以操纵用户（例如用于广告营销或政治宣传）。相较于以往聚焦单轮攻击的研究，VMI攻击在用户进行长周期多轮对话后依然有效。我们在多个最新开源LVLM上验证了该攻击的有效性。本文由此证明：通过篡改图像在多轮对话场景中实现大规模用户操纵具有可行性，这要求LVLM需提升对此类攻击的鲁棒性。项目源码已发布于https://github.com/chs20/visual-memory-injection。

OPBench：應對鴉片類藥物危機的圖數據基準
OPBench: A Graph Benchmark to Combat the Opioid Crisis

Feb 16

ByTianyi Ma, Yiyang Li, Yiyue Qian, Zheyuan Zhang, Zehong Wang, Chuxu Zhang, Yanfang Ye

鴉片類藥物濫用危機持續肆虐全球社區，不僅使醫療體系不堪重負、造成家庭破碎，更亟需運算技術的緊急應對方案。為對抗這場致命的鴉片危機，圖學習方法已成為建模複雜藥物相關現象的嶄新範式。然而當前存在關鍵缺口：尚無系統性評估這些方法在真實鴉片危機場景中表現的綜合基準。為此，我們推出首個綜合性鴉片危機基準平台OPBench，涵蓋三大關鍵應用領域的五套數據集：基於醫療理賠數據的用藥過量檢測、源自數位平台的非法藥物交易識別，以及透過飲食模式預測藥物濫用行為。具體而言，OPBench整合了異質圖與超圖等多元圖結構，以完整保留藥物數據間豐富而複雜的關聯資訊。為解決數據稀缺問題，我們攜手領域專家與權威機構，在遵循隱私與倫理規範下進行數據策展與標註。此外，我們建立包含標準化流程、預定義數據分割與可復現基線的統一評估框架，以促進圖學習方法間的公平系統性比較。透過大規模實驗，我們深入剖析現有圖學習方法的優勢與局限，為未來抗擊鴉片危機的研究提供可行見解。相關源代碼與數據集已開源於：https://github.com/Tianyi-Billy-Ma/OPBench。