HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

30 papers found

每激活一次，推理能力躍升：將通用推理模型擴展至萬億級開放語言基座
Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

Oct 25

ByLing-Team, Ang Li, Ben Liu, Binbin Hu, Bing Li, Bingwei Zeng, Borui Ye, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Qian, Chenchen Ju, Chenchen Li, Chengfu Tang, Chili Fu, Chunshao Ren, Chunwei Wu, Cong Zhang, Cunyin Peng, Dafeng Xu, Daixin Wang, Dalong Zhang, Dingnan Jin, Dingyuan Zhu, Dongke Hu, Fangzheng Zhao, Feifan Wu, Feng Zhu, Gangshan Wang, Haitao Zhang, Hailin Zhao, Hanxiao Zhang, Hanzi Wang, Hao Qian, Haoyi Yu, Heng Zhang, Hongliang Zhang, Hongzhi Luan, Huirong Dong, Huizhong Li, Jia Li, Jia Liu, Jialong Zhu, Jian Sha, Jianping Wei, Jiaolong Yang, Jieyue Ma, Jiewei Wu, Jinjing Huang, Jingyun Tian, Jingyuan Zhang, Jinquan Sun, Juanhui Tu, Jun Liu, Jun Xu, Jun Zhou, Junjie Ou, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Liang, Lei Xu, Libo Zhang, Lin Ju, Lin Yuan, Ling Zhong, Lintao Ma, Lu Liu, Lu Yu, Lun Cai, Meiqi Zhu, Mengying Li, Min Chen, Minghao Xue, Minghong Cai, Mingming Yin, Peijie Jiang, Peilong Zhao, Pingping Liu, Qian Zhao, Qing Cui, Qingxiang Huang, Qingyuan Yang, Quankun Yu, Shaowei Wei, Shijie Lian, Shoujian Zheng, Shun Song, Shungen Zhang, Shuo Zhang, Siyuan Li, Song Liu, Ting Guo, Tong Zhao, Wanli Gu, Weichang Wu, Weiguang Han, Wenjing Fang, Wubin Wang, Xiang Shu, Xiao Shi, Xiaoshun Lan, Xiaolu Zhang, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xiong Xu, Xudong Wang, Xudong Wang, Xuemin Yang, Yajie Yang, Yang Xiang, Yanzhe Li, Yi Zhang, Yilong Wang, Yingxue Li, Yongzhen Guo, Yuzhuo Fu, Yuanyuan Wang, Yue Yang, Yue Yu, Yufeng Deng, Yun Zhang, Yunfei Xu, Yuqi Zhang, Yuxiao He, Zengke Gui, Zhaoxin Huan, Zhaoyang Wang, Zhibo Zhu, Zhihao Wang, Zhiqiang Zhang, Zhoufei Wang, Zihang Zeng, Ziqi Liu, Zitao Xuan, Zuoli Tang

我們推出 Ling 2.0——一個基於「每次激活皆提升推理能力」原則構建的系列化推理導向語言基礎模型。該系列在統一混合專家模型框架下，設計參數規模可從數百億擴展至一萬億，並憑藉實證縮放定律實現高稀疏度、跨尺度一致性與高效能特性。系列包含三款非思維（指令）模型：Ling-mini-2.0、Ling-flash-2.0 與 Ling-1T，總參數規模從160億至1萬億，相比稠密模型實現最高7倍激活計算效率。Ling 2.0 整合了模型架構、預訓練、後訓練及基礎設施的協同創新：採用具備多令牌預測的高稀疏MoE架構以實現高效推理，融合推理導向數據與訓練中期思維鏈激活，實施基於強化的精調技術（DFT、Evo-CoT），並實現全尺度FP8訓練與細粒度異構流水線。在萬億參數級別，Ling-1T 建立了推理準確率與計算效率的新帕累托前沿，證明稀疏激活機制與推理目標精準對齊時，可實現可擴展的高效智能。整體而言，Ling 2.0 為推進未來推理與思維模型（包括基於同底座的Ring系列）提供了連貫、開放且高效的基礎框架。

EBT策略：能量解鎖湧現的物理推理能力
EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities

Oct 31

ByTravis Davies, Yiqi Huang, Alexi Gladstone, Yunxin Liu, Xiang Chen, Heng Ji, Huxian Liu, Luhui Hu

以生成模型（如擴散策略）為參數的隱式策略，已成為機器人領域中策略學習與視覺-語言-動作模型的主流方法。然而，這類方法常面臨計算成本高、曝光偏差及推理動態不穩定等問題，導致在分佈偏移下出現發散現象。基於能量的模型通過端到端學習能量景觀並建模平衡動力學，能有效改善魯棒性並降低曝光偏差，但傳統上以EBM參數化的策略難以擴展至複雜場景。近期提出的能量型Transformer證明了EBM在高維空間的可擴展性，但其在物理實體模型核心挑戰中的應用潛力尚未充分探索。我們提出新型能量架構EBT-Policy，專注解決機器人與真實世界環境的關鍵問題。在仿真與實物任務中，EBT-Policy不僅持續超越基於擴散的策略，更顯著降低訓練與推理計算量——部分任務僅需兩次推理步驟即可收斂，較擴散策略的100步實現50倍壓縮。尤為突出的是，EBT-Policy展現出前所未有的湧現能力：僅通過行為克隆且無需重試訓練，即可實現失敗動作序列的零樣本恢復。通過利用標量能量進行不確定性感知推理與動態計算資源分配，EBT-Policy為分佈偏移下實現魯棒、可泛化的機器人行為開闢了新路徑。

將測試時計算最優縮放推廣為可優化圖結構
Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph

Oct 29

ByFali Wang, Jihai Chen, Shuhua Yang, Runxue Bao, Tianxiang Zhao, Zhiwei Zhang, Xianfeng Tang, Hui Liu, Qi He, Suhang Wang

測試時擴展（TTS）技術透過在推理階段分配額外計算資源來提升大型語言模型（LLM）的性能，通常採用並行、序列或混合擴展方式。然而，現有研究往往預設固定的協作架構（如拓撲結構）和單一模型使用模式，忽略了最優架構與模型組合會隨任務不同而變化的特性。為此，我們研究在固定計算預算下，為TTS搜尋計算最優的模型組合與架構這一新問題。我們將其形式化為多LLM協作圖結構：節點編碼角色與LLM模型分配，邊緣捕捉資訊流動。該問題的挑戰在於：（i）組合搜尋空間過於龐大；（ii）任務特定需求需要定制化設計。為解決這些難題，我們將問題重新表述為概率圖優化，並透過預實驗歸納出TTS協作圖的三項實證規律。基於這些規律，我們提出Agent-REINFORCE框架——該框架透過LLM智能體增強，將REINFORCE演算法的「採樣-梯度-更新」流程映射為「採樣-反饋-更新」，其中文字化反饋作為梯度替代品來更新概率圖，從而高效搜尋最優多LLM協作圖。實驗表明，Agent-REINFORCE在樣本效率和搜尋性能上均優於傳統基線與LLM基線，並能有效在準確率與推理延遲的聯合目標下識別最優圖結構。

基於視訊基礎模型的物理人工智慧世界模擬
World Simulation with Video Foundation Models for Physical AI

Oct 28

ByNVIDIA, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

我們推出[Cosmos-Predict2.5]——宇宙世界物理人工智慧基礎模型的最新世代。基於流式架構構建的[Cosmos-Predict2.5]將文字生成世界、圖像生成世界與影片生成世界三大功能整合於單一模型中，並運用物理AI視覺語言模型[Cosmos-Reason1]提供更豐富的文本錨定與更精細的世界模擬控制。該模型在2億支精選影片片段上進行訓練，並透過強化學習式後訓練優化，相較[Cosmos-Predict1]在影片品質與指令遵循方面實現顯著提升，現提供20億與140億參數規模的版本。這些突破性能力可為機器人與自主系統提供更可靠的合成數據生成、策略評估及閉環模擬。我們同時推出控制網路風格的[Cosmos-Transfer2.5]框架，用於模擬到現實與現實到現實的世界轉譯。儘管體積僅為[Cosmos-Transfer1]的1/3.5，其仍能實現更高保真度與強健的長時序影片生成。這些進展共同確立了[Cosmos-Predict2.5]與[Cosmos-Transfer2.5]作為擴展具身智能的通用工具地位。為加速物理AI領域的研究與部署，我們於https://github.com/nvidia-cosmos/cosmos-predict2.5 及 https://github.com/nvidia-cosmos/cosmos-transfer2.5 開源原始碼、預訓練模型與精選基準測試集（採用NVIDIA開放模型許可協議）。期待這些開放資源能降低技術門檻，推動下一代具身智能建設的創新發展。

UniREditBench：一個基於統一推理的影像編輯基準測試集
UniREditBench: A Unified Reasoning-based Image Editing Benchmark

Nov 3

ByFeng Han, Yibin Wang, Chenglin Li, Zheming Liang, Dianyi Wang, Yang Jiao, Zhipeng Wei, Chao Gong, Cheng Jin, Jingjing Chen, Jiaqi Wang

近期多模態生成模型的進展顯著提升了圖像編輯能力。然而，現有生成模型在處理需要隱式推理的多樣化複雜圖像編輯任務時仍面臨挑戰，這凸顯了建立系統性評估模型在不同推理場景下表現的綜合基準的必要性。現有基準主要聚焦於現實場景中的單一物件屬性轉換，雖具實效性卻存在兩大關鍵侷限：（1）普遍忽略多物件互動及涉及人為規則的遊戲世界場景，而這類場景在實際應用中十分常見；（2）僅依賴文本參照評估生成圖像，可能在複雜推理場景中導致系統性誤判。為此，本研究提出統一推理式圖像編輯評估基準UniREditBench，包含2,700個精心策劃的樣本，涵蓋現實與遊戲世界場景的8個主維度及18個子維度。為提升評估可靠性，我們引入多模態雙參照評估機制，為每個樣本提供文本與真實圖像雙重參照。此外，我們設計了自動化多場景數據合成流程，構建包含高質量思維鏈推理標註的大規模合成數據集UniREdit-Data-100K。通過在該數據集上微調Bagel模型，我們開發出UniREdit-Bagel，其在領域內與分佈外場景均展現顯著性能提升。透過對開源與閉源圖像編輯模型的全面基準測試，我們揭示了各模型在不同維度的優劣勢。

視覺模型在圖結構理解中被低估的能力
The Underappreciated Power of Vision Models for Graph Structural Understanding

Oct 27

ByXinjian Zhao, Wei Pang, Zhongkai Xue, Xiangru Jian, Lei Zhang, Yaoyao Xu, Xiaozhuang Song, Shu Wu, Tianshu Yu

圖神經網絡透過自下而上的訊息傳遞機制運作，這種方式與人類視覺感知存在根本差異——後者會直覺性地先捕捉全局結構。我們探索了視覺模型在圖理解領域尚未被充分發掘的潛力，發現其在經典基準測試中能達到與圖神經網絡相當的性能，同時展現出截然不同的學習模式。這種行為差異，加上現有基準測試中存在的領域特徵與拓撲理解相互混淆的局限性，促使我們推出GraphAbstract基準。該基準評估模型像人類一樣感知全局圖屬性的能力：識別組織原型、檢測對稱性、感知連接強度以及定位關鍵元素。實驗結果表明，在需要整體結構理解的任務上，視覺模型顯著優於圖神經網絡，並能保持跨圖規模的泛化能力；而圖神經網絡則在全局模式抽象方面表現掙扎，且性能隨圖規模增大而衰減。本研究證實視覺模型具有卓越但未被充分利用的圖結構理解能力，特別是在需要全局拓撲感知和尺度不變推理的問題上。這些發現為開發更有效的圖基礎模型開闢了新途徑，尤其適用於以整體模式識別為主導的任務場景。

UniLumos：基於物理可信反饋的快速統一圖像與視頻重照明技術
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback

Nov 3

ByRopeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang

重光照技術是一項兼具實用需求與藝術價值的關鍵任務，近期擴散模型通過實現豐富可控的照明效果展現出強大潛力。然而，由於這類模型通常在語義潛空間進行優化，而潛空間中的鄰近性無法保證視覺空間的物理正確性，因此常產生不真實的結果，例如過曝的高光、錯位的陰影與錯誤的遮擋。為此我們提出UniLumos——一個適用於圖像與視頻的統一重光照框架，將RGB空間的幾何反饋引入流匹配主幹網絡。通過從模型輸出中提取深度圖和法線圖進行監督，我們顯式地將照明效果與場景結構對齊，從而提升物理合理性。但這種反饋機制需要高質量輸出作為視覺空間的監督信號，導致傳統多步去噪方法計算成本高昂。為緩解此問題，我們採用路徑一致性學習，使監督在少步數訓練機制下仍保持有效性。為實現細粒度重光照控制與監督，我們設計了結構化的六維標註協議，用於捕捉核心光照屬性。基於此協議，我們提出LumosBench解耦屬性級評測基準，通過大型視覺語言模型評估光照可控性，實現跨維度的自動化可解釋重光照精度評估。大量實驗表明，UniLumos在實現顯著提升物理一致性的同時，達到了業界頂尖的重光照質量，並為圖像和視頻重光照帶來20倍加速效果。代碼已開源於：https://github.com/alibaba-damo-academy/Lumos-Custom。

ROVER：面向全模态生成的逆向跨模态推理基准评测
ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation

Nov 3

ByYongyuan Liang, Wei Chow, Feng Li, Ziqiao Ma, Xiyao Wang, Jiageng Mao, Jiuhai Chen, Jiatao Gu, Yue Wang, Furong Huang

统一多模态模型（UMMs）已成为无缝整合文本与图像理解与生成的强大范式。然而主流评估方法仍孤立对待这些能力——多模态输入输出的任务主要通过单模态推理进行评分：文本基准强调基于语言的推理，而视觉基准关注像素层面呈现的推理结果。我们提出ROVER基准来解决这一迫切需求，该基准专门测试交互式跨模态推理能力（即利用一种模态引导、验证或优化另一种模态的输出），这种能力是实现统一多模态智能愿景的核心。ROVER作为人工标注的基准数据集，明确针对交互式跨模态推理设计，包含基于1876张图像的1312项任务，涵盖两种互补场景：面向视觉生成的语言增强推理评估模型能否利用语言提示和推理链指导精准的图像合成，面向语言生成的视觉增强推理检验模型能否生成中间可视化结果以强化问答任务的推理过程。对17个统一模型的实验揭示两大关键发现：（一）跨模态推理决定视觉生成质量，交错式模型显著优于非交错式模型，值得注意的是，单纯组合强单模态模型无法实现可比推理能力；（二）模型在物理推理与符号推理间存在割裂：能成功解读具象感知概念，却难以构建符号化任务的视觉抽象表征，错误推理会损害性能。这些结果表明交互式跨模态推理是实现真正全模态生成的关键前沿领域。

MR-Align：面向大型推理模型的元推理引导事实性校准
MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models

Oct 27

ByXinming Wang, Jian Xu, Bin Yu, Sheng Lian, Hongzhu Yi, Yi Chen, Yingjian Zhu, Boran Wang, Hongming Yang, Han Hu, Xu-Yao Zhang, Cheng-Lin Liu

大型推理模型（LRMs）在复杂推理任务中展现出强大能力，但在依赖证据的事实性问题上的边际收益有限。我们发现这种局限性部分归因于"推理-答案命中鸿沟"——模型在推理过程中能识别正确事实，却未能将其整合到最终回答中，从而降低了事实保真度。为解决该问题，我们提出MR-ALIGN框架，这是一种基于元推理的对齐机制，无需依赖外部验证器即可增强事实准确性。该框架通过量化模型思维过程中的状态转移概率，构建具有转移感知能力的隐式奖励机制，在原子化思维片段层面强化有益推理模式并抑制缺陷模式。这种重加权策略将词元级信号转化为概率感知的片段评分，促使推理轨迹保持连贯性，从而更有利于实现事实正确性。在四个事实问答数据集和一个长文本事实性基准测试上的实证表明，MR-ALIGN能持续提升准确性与真实性，同时减少误导性推理。这些结果凸显出：对齐推理过程本身（而非仅仅对齐输出结果）对于提升LRMs的事实性具有关键意义。

MotionStream：基于交互式运动控制的实时视频生成技术
MotionStream: Real-Time Video Generation with Interactive Motion Controls

Nov 3

ByJoonghyuk Shin, Zhengqi Li, Richard Zhang, Jun-Yan Zhu, Jaesik Park, Eli Schechtman, Xun Huang

当前基于运动条件的视频生成方法存在两大瓶颈：生成延迟高达每分钟级别，且非因果处理机制无法实现实时交互。我们提出的MotionStream框架在单块GPU上实现了亚秒级延迟和最高29帧/秒的流式生成。该技术路径首先通过运动控制增强文本到视频模型，使其能生成符合全局文本提示与局部运动引导的高质量视频，但尚未实现实时推理。为此，我们采用带分布匹配蒸馏的自我强制算法，将这种双向教师模型蒸馏为因果学生模型，从而实现实时流式推理。针对长时域（可能无限长度）视频生成，我们攻克了三大关键挑战：(1) 弥合有限训练时长与无限时域外推之间的领域差距；(2) 通过防止误差累积保持生成质量；(3) 在上下文窗口扩展时维持快速推理，避免计算成本增长。解决方案的核心是精心设计的滑动窗口因果注意力机制与注意力锚点技术。通过训练阶段结合注意力锚点、KV缓存滚动及自推演策略，我们以固定上下文窗口精准模拟推理时的外推过程，实现任意长度视频的恒速生成。该模型在运动跟随精度与视频质量方面达到业界最优水平，同时将生成速度提升两个数量级，独树一帜地实现无限长度流式生成。借助MotionStream，用户可实时绘制轨迹、控制摄像机或迁移运动模式，并即刻观看到生成效果，真正实现交互式创作体验。

PHUMA：基于物理的人形机器人运动数据集
PHUMA: Physically-Grounded Humanoid Locomotion Dataset

Oct 30

ByKyungmin Lee, Sibeen Kim, Minho Park, Hyunseung Kim, Dongyoon Hwang, Hojoon Lee, Jaegul Choo

動作模仿是實現仿人機器人運動的一種前景廣闊的方法，能使智能體習得類人行為。現有方法通常依賴AMASS等高質量動作捕捉數據集，但這類數據稀缺且成本高昂，限制了可擴展性與多樣性。近期研究嘗試通過轉化大規模網絡視頻（如Humanoid-X）來擴展數據收集規模，但常伴隨漂浮、穿透和滑步等物理偽影，影響模仿穩定性。為此，我們提出PHUMA——基於物理約束的仿人運動數據集，該數據集在利用大規模人類視頻的同時，通過精細化數據校準與物理約束重定向技術解決物理偽影問題。PHUMA強制關節活動限制、確保足部接地並消除滑步現象，生成兼具大規模與物理可靠性的運動數據。我們在兩種情境下評估PHUMA：（1）對自錄測試視頻中未見過動作的模仿；（2）僅憑骨盆引導的路徑追蹤。兩種實驗中，基於PHUMA訓練的策略均超越Humanoid-X和AMASS，在模仿多樣化運動方面取得顯著提升。項目代碼已開源於https://davian-robotics.github.io/PHUMA。

工具视域：面向视觉引导与长周期工具运用的智能体框架
ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

Oct 31

ByMengjie Deng, Guanting Dong, Zhicheng Dou

近期，大型语言模型（LLMs）通过自主集成外部工具进行协同推理，展现出卓越的问题解决能力。然而，由于多模态信息固有的复杂性和多样性，如何使多模态大语言模型（MLLMs）在推理过程中灵活高效地调用外部工具仍是一个尚未充分探索的挑战。本文提出ToolScope——一种智能体框架，通过引入专用感知工具来统一全局规划与局部多模态感知，以缓解长视野视觉问答任务中的视觉上下文退化问题。该框架包含三大核心组件：全局导航器作为"望远镜"提供高层策略指导；智能体执行器通过集成搜索、代码和感知三类外部工具，以迭代方式增强模型的局部感知能力；响应合成器则负责将推理过程整合为连贯的用户友好型输出。我们在涵盖VQA 2.0、ScienceQA、MAT-Search和MathVista的四个跨领域VQA基准测试中评估ToolScope，其展现出强大的泛化能力，在所有数据集上平均性能提升最高达6.69%。

长猫闪电全能模型技术报告
LongCat-Flash-Omni Technical Report

Oct 31

ByMeituan LongCat Team, Bairui Wang, Bayan, Bin Xiao, Bo Zhang, Bolin Rong, Borun Chen, Chang Wan, Chao Zhang, Chen Huang, Chen Chen, Chen Chen, Chengxu Yang, Chengzuo Yang, Cong Han, Dandan Peng, Delian Ruan, Detai Xin, Disong Wang, Dongchao Yang, Fanfan Liu, Fengjiao Chen, Fengyu Yang, Gan Dong, Gang Huang, Gang Xu, Guanglu Wan, Guoqiang Tan, Guoqiao Yu, Haibo Qiu, Hao Lu, Hongbo Liu, Hongyu Xiang, Jiaheng Wu, Jian Yang, Jiaxing Liu, Jing Huang, Jingang Wang, Jinrui Ding, Juchao Jiang, Jun Kuang, Jun Wang, Junhui Mei, Ke Ding, Kefeng Zhang, Lei Chen, Liang Shi, Limeng Qiao, Liming Zheng, Lin Ma, Liuyang Guo, Liya Ma, Luying Sun, Man Gao, Mengshen Zhu, Miao Cao, Minliang Lin, Nuo Xu, Peng Shi, Qi Zhang, Qian Fang, Qian Wang, Qian Yang, Quanxiu Wang, Rongxiang Weng, Rongxin Guo, Ruoxuan Liang, Senbin Yang, Shanbo Xu, Shanglin Lei, Shengze Ye, Shimin Chen, Shuaiqi Chen, Shujie Hu, Shuo Li, Siqi Yang, Siyu Xu, Siyu Ren, Song Li, Songxiang Liu, Tianhao Bai, Tianye Dai, Wei Hong, Wei Wang, Weixiao Zhao, Wengang Cao, Wenlong Zhu, Wenlong He, Xi Su, Xi Nan, Xiaohan Zhao, Xiaohao Wang, Xiaoyu Zhao, Xiaoyu Wang, Xiaoyu Li, Xin Pan, Xin Chen, Xiusong Sun, Xu Xiang, Xudong Xing, Xuezhi Cao, Xunliang Cai, Yang Yang, Yanli Tan, Yao Yao, Yerui Sun, Yi Chen, Yifan Lu, Yin Gong, Yining Zhang, Yitian Chen, Yiyang Gan, Yuchen Tang, Yuchen Xie, Yueqian Wang, Yuewen Zheng, Yufei Zhang, Yufeng Zhong, Yulei Qian, Yuqi Peng, Yuwei Jiang, Zeyang Hu, Zheng Zhang, Zhengkun Tian, Zhiqing Hong, Zhixiong Zeng, Zhuqi Mi, Ziran Li, Ziwen Wang, Ziyi Zhao, Ziyuan Zhuang, Zizhe Zhao

我们推出LongCat-Flash-Omni——一款拥有5600亿参数、具备实时音视频交互能力的尖端开源全模态模型。该模型采用课程启发式渐进训练策略，从简单到复杂逐步过渡至多模态序列建模任务，在保持强大单模态能力的同时获得了全面的多模态理解能力。基于采用高性能捷径连接专家混合架构（零计算专家）的LongCat-Flash模型，LongCat-Flash-Omni整合了高效多模态感知与语音重建模块。尽管参数量高达5600亿（激活参数270亿），该模型仍能实现低延迟实时音视频交互。在训练基础设施方面，我们开发了专门应对大规模多模态训练中数据与模型异构性的模态解耦并行方案，这一创新方法通过维持纯文本训练90%以上的吞吐量，展现出卓越的效率优势。大量评估表明，LongCat-Flash-Omni在开源模型中实现了全模态基准测试的顶尖性能，同时在文本、图像、视频理解以及音频理解与生成等广泛模态专项任务中表现出强大竞争力。我们全面阐述了模型架构设计、训练流程与数据策略，并将模型开源以促进学界后续研发。

OpenSIR：开放式自我改进推理系统
OpenSIR: Open-Ended Self-Improving Reasoner

Nov 1

ByWai-Chung Kwan, Joshua Ong Jun Leang, Pavlos Vougiouklis, Jeff Z. Pan, Marco Valentino, Pasquale Minervini

基於強化學習的大語言模型推理技術近期取得進展，但其依賴可驗證獎勵的註釋數據集，這可能限制模型超越人類水平的能力。儘管自我博弈提供了一種前景廣闊的替代方案，現有方法仍需依賴外部驗證器或無法實現開放式學習。我們提出開放式自我改進推理器（OpenSIR），該框架通過交替扮演教師與學生角色，使大語言模型在無外部監督的情況下學習生成並解決新問題。為創造新穎問題，OpenSIR同步優化難度與多樣性：既獎勵能帶來適當挑戰的問題，又探索不同概念領域，從而實現開放式數學發現。從單個簡單種子問題出發，OpenSIR顯著提升指令模型性能——Llama-3.2-3B-Instruct在GSM8K上的準確率從73.9%提升至78.3%，在大學數學題集上從28.8%提升至34.4%；Gemma-2-2B-Instruct在GSM8K上從38.5%躍升至58.7%。分析表明，OpenSIR通過協同演化的師生角色實現開放式學習，這種動態關係能自適應校準難度並驅動多樣化探索，使模型從基礎數學自主進階至高階數學領域。

迈向通用视频检索：通过合成多模态金字塔课程泛化视频嵌入
Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

Oct 31

ByZhuoning Guo, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Xiaowen Chu

当前视频检索的主流范式存在结构性偏差——狭隘的基准测试催生了相应局限的数据与单任务训练模式。由于缺乏能定义并要求多维度泛化能力的诊断性评估，系统通用性能受到压制。为突破这一循环，我们提出了评估、数据与建模协同设计的框架。首先构建通用视频检索基准（UVRB），该套件包含16个数据集，不仅能衡量性能，更能诊断跨任务与跨领域的关键能力缺口。其次，基于UVRB的诊断指导，我们开发可扩展的合成工作流，生成155万高质量样本对以填充通用性所需的语义空间。最后设计模态金字塔课程，通过显式利用多元数据间的潜在关联，训练出通用视频嵌入模型（GVE）。大量实验表明，GVE在UVRB上实现了零样本泛化的最先进性能。特别值得注意的是，分析揭示流行基准对通用能力的预测性较差，且部分相关检索是主导却长期被忽视的场景。整体而言，我们的协同设计框架为突破现有局限、迈向真正通用的视频检索提供了可行路径。

TIR-Bench：面向具身图像思维推理的智能体综合基准评测体系
TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

Nov 3

ByMing Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang

视觉推理的前沿正转向类似OpenAI o3的模型，这类模型能够智能创建并操作工具来转化图像以解决问题，这种在思维链中进行的图像思考范式尚未被现有基准全面评估。即便是当前最常用的图像思考基准Visual Search，也仅测试定位与裁剪等基础操作，难以反映复杂动态且依赖工具的推理能力。我们推出TIR-Bench这一综合基准，通过13项多样化任务评估具身化图像思考能力，每项任务均需在思维链中运用创新工具进行图像处理与操控。我们对22个多模态大语言模型（涵盖领先开源/闭源模型及显式工具增强模型）的测试表明：TIR-Bench具有普适挑战性，优异表现需以真正的图像思考能力为基础。最后我们通过对比直接微调与具身化微调的试点研究，揭示了训练策略对模型工具运用能力的影响。

NaviTrace：视觉语言模型具身导航能力评估
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

Oct 30

ByTim Windecker, Manthan Patel, Moritz Reuss, Richard Schwarzkopf, Cesar Cadena, Rudolf Lioutikov, Marco Hutter, Jonas Frey

視覺語言模型在廣泛的任務與場景中展現出前所未有的性能與泛化能力。將這些基礎模型整合到機器人導航系統中，為構建通用機器人開闢了新途徑。然而，當前對這些模型導航能力的評估仍受制於高昂的真實環境測試、過度簡化的模擬系統以及有限的基準數據集。我們推出NaviTrace——一個高質量的視覺問答基準測試框架：模型接收指令與具身類型（人類、足式機器人、輪式機器人、自行車）後，需在圖像空間中輸出二維導航軌跡。基於1000個場景與3000餘條專家軌跡數據，我們採用新提出的語義感知軌跡評分系統，對八種前沿視覺語言模型進行系統性評估。該指標融合動態時間規整距離、目標端點誤差以及基於像素級語義的具身條件懲罰機制，並與人類偏好具有相關性。評估結果揭示了因空間基礎定位與目標識別能力不足導致的模型與人類性能間的持續差距。NaviTrace為真實環境機器人導航建立了可擴展、可複現的評估基準，相關基準數據集與排行榜詳見：https://leggedrobotics.github.io/navitrace_webpage/。

left|,circlearrowright,text{BUS},right|：一个用于评估视觉语言模型理解字谜能力的大规模多样化多模态基准
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

Nov 3

ByTrishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S

理解画谜（Rebus Puzzles）需要综合运用图像识别、认知技能、常识推理、多步推理、基于图像的双关语等多种能力，这使得即使对当前最先进的视觉语言模型而言也是项具有挑战性的任务。本文推出包含1,333个英文画谜的left|,circlearrowright,text{BUS},right|大型多样化基准数据集，这些画谜涵盖食品、成语、体育、金融、娱乐等18个类别，具有不同的艺术风格和难度等级。我们同时提出RebusDescProgICE——一种模型无关的框架，该框架结合非结构化描述与基于代码的结构化推理，并采用改进的基于推理的上下文示例选择策略，相比思维链推理方法，在使用闭源与开源模型时分别将left|,circlearrowright,text{BUS},right|上的性能提升了2.1-4.1%和20-30%。

视觉语言模型表现如何？基于MeasureBench的视觉测量读数基准测试
Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

Oct 30

ByFenfen Lin, Yesheng Liu, Haiyu Xu, Chen Yue, Zheqi He, Mingxuan Zhao, Miguel Hu Chen, Jiakang Liu, JG Yao, Xi Yang

人类读取测量仪器可谓轻而易举，且几乎无需领域专业知识，但我们在初步评估中发现，这对当前视觉语言模型（VLM）仍具有惊人挑战性。本研究推出MeasureBench——一个涵盖各类真实场景与合成测量图像的视觉测量读取基准，同时提供可扩展的数据合成流程。该流程能按需生成具有可控视觉特征的指定类型仪表，实现指针、刻度、字体、光照及杂波等关键细节的规模化变异。对主流专有模型和开源权重的VLM评估表明，即便是最先进的尖端模型在测量读取任务上仍普遍表现不佳。其中持续性失效模式是指示器定位问题：模型虽能识别数字或标签，却会误判指针或对齐标记的关键位置，导致尽管文本推理合理但数值误差巨大。我们通过合成数据进行了强化学习初步实验，发现在域内合成子集上结果可喜，但对真实图像的泛化能力仍不理想。本分析揭示了当前VLM在细粒度空间定位方面的根本局限。我们期望这一资源能推动视觉基础计算能力与VLM精确空间感知技术的未来发展，弥合数字识别与世界测量之间的鸿沟。

Trove：面向稠密检索的灵活工具包
Trove: A Flexible Toolkit for Dense Retrieval

Nov 3

ByReza Esfandiarpoor, Max Zuo, Stephen H. Bach

我们推出Trove——一款简单易用的开源检索工具包，在保持灵活性与速度的同时显著简化研究实验流程。该工具首次实现了高效动态数据管理功能，仅需少量代码即可实时加载并处理（筛选、选择、转换与融合）检索数据集。这使得用户能灵活尝试不同数据集配置，无需为大型数据集计算并存储多个副本。Trove具备高度可定制性：除内置多种选项外，用户可自由修改现有组件或完全替换为自定义对象。该工具还提供用于评估和难负例挖掘的低代码统一流水线，支持无需代码修改的多节点执行。Trove的数据管理功能将内存消耗降低至原来的2.6分之一，其易用的推理流水线更实现零额外开销，且推理时间随可用节点数量呈线性下降。最重要的是，我们展示了Trove如何简化检索实验并支持任意定制，从而有效推动探索性研究。

实际：激活多模态大语言模型的空间推理能力
Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

Nov 3

ByXiaoyu Zhan, Wenxuan Huang, Hao Sun, Xinyu Fu, Changfeng Ma, Shaosheng Cao, Bohan Jia, Shaohui Lin, Zhenfei Yin, Lei Bai, Wanli Ouyang, Yuanqi Li, Jie Guo, Yanwen Guo

多模态大语言模型（MLLMs）的最新进展显著提升了二维视觉理解能力，这促使研究者开始探索其在复杂三维推理任务中的应用。然而，这些模型是否能有效捕捉现实场景中稳健性能所需的精细空间信息（尤其是跨视角一致性这一三维推理的关键要素）仍不明确。针对该问题，我们提出视角学习任务，旨在评估并增强MLLMs的空间推理能力。我们构建了包含10万个以物体为中心的多视角图像对及对应问答对的Viewpoint-100K数据集，并采用两阶段微调策略：首先通过监督微调向基线MLLM注入基础空间知识，使其在多项任务中取得显著提升；随后基于群体相对策略优化算法对更广泛问题进行强化学习以增强泛化能力。此外，我们提出混合冷启动初始化方法，可同步学习视角表征并保持连贯推理思维。实验结果表明，该方法显著激活了MLLMs的空间推理能力，在领域内和领域外推理任务中均表现出性能提升。我们的研究揭示了培养MLLMs基础空间技能的价值，将为机器人技术、自主系统及三维场景理解领域的未来发展提供支撑。

基于离策略影响引导的数据高效强化学习与视频检索
Data-Efficient RLVR via Off-Policy Influence Guidance

Oct 30

ByErle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang

在基於可驗證獎勵的強化學習（RLVR）中，數據選擇是提升大型語言模型（LLM）推理能力的關鍵環節。現有數據選擇方法多基於啟發式策略，缺乏理論保證與泛化能力。本研究提出一種理論基礎紮實的影響函數方法，用於評估每個數據點對學習目標的貢獻度。為克服在線影響估計所需策略滾動的高昂計算成本，我們引入離策略影響估計方法，利用預先收集的離線軌跡高效近似數據影響力。針對LLM高維梯度難題，採用稀疏隨機投影技術降低維度，提升存儲與計算效率。基於這些技術，我們開發了具備離策略影響引導的課程強化學習框架（CROPI），該多階段RL框架能迭代選擇對當前策略最具影響力的數據。在參數量達70億的模型實驗中，CROPI顯著加速訓練過程：在15億參數模型上，僅使用每階段10%的數據即可實現2.66倍的步級加速效果。實驗結果凸顯了基於影響力的數據選擇在高效RLVR中的巨大潛力。

统一扩散VLA：通过联合离散去噪扩散过程实现的视觉-语言-动作模型
Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

Nov 3

ByJiayi Chen, Wenxuan Song, Pengxiang Ding, Ziyang Zhou, Han Zhao, Feilong Tang, Donglin Wang, Haoang Li

視覺-語言-行動（VLA）模型旨在理解自然語言指令與視覺觀測數據，並作為具身智能體執行相應動作。近期研究將未來圖像整合至理解-行動循環中，催生出能聯合理解、生成與行動的統一VLA模型——既能解讀文本與圖像，又能生成未來圖像與動作。然而，現有模型要么依賴外部專家實現模態統一，要么將圖像生成與動作預測視為獨立過程，限制了這些任務間直接協同的效益。我們的核心理念是通過同步去噪過程聯合優化生成與動作，該迭代優化機制使動作能在持續充分的視覺引導下從初始化狀態逐步演進。我們將此理念實現在提出的統一擴散VLA模型與聯合離散去噪擴散過程（JD3P）中，該聯合擴散過程將多模態整合至單一去噪軌跡，作為實現理解、生成與行動內在協同的關鍵機制。我們的模型與理論建構於統一的多模態標記空間與混合注意力機制之上，並進一步提出兩階段訓練流程及多項推理階段優化技術以提升效能與效率。該方法在CALVIN、LIBERO和SimplerEnv等基準測試中達到最先進性能，推理速度比自回歸方法快4倍，我們通過深度分析與實境評估驗證其有效性。項目頁面請見：https://irpn-eai.github.io/UD-VLA.github.io/。

迈向稳健的数学推理
Towards Robust Mathematical Reasoning

Nov 3

ByThang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung

确立正确的北极星指标对于提升基础模型的数学推理能力至关重要，尤其是考虑到现有评估方法要么过于简单，要么仅关注简短答案的正确性。为解决这些问题，我们推出IMO-Bench——一套经顶尖专家团队审核、专门针对国际数学奥林匹克（IMO）竞赛水平设计的高阶推理基准。该套件包含IMO-AnswerBench（含400道可验证简短答案的奥赛题目）和IMO-ProofBench（配备分级标准的证明题评估集），前者测试模型对多样化奥赛问题的解答能力，后者通过基础与高阶IMO题型评估证明生成能力。这些基准在我们实现IMO 2025金奖的历史性突破中发挥了关键作用（Luong与Lockhart，2025）。我们的模型在IMO-AnswerBench上达到80.0%准确率，在高阶IMO-ProofBench上获得65.7%得分，分别以6.9%和42.4%的显著优势超越非Gemini最佳模型。研究还表明，基于Gemini推理构建的自动评分器与人工评估高度相关，我们据此建立了包含1000条人工证明评分的IMO-GradingBench，以推动长答案自动评估的发展。我们期待IMO-Bench能助力学界推进稳健的数学推理研究，相关资源已发布于https://imobench.github.io/。

UME-R1：探索推理驱动的生成式多模态嵌入研究
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

Nov 1

ByZhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su

多模态大语言模型（MLLMs）取得的显著成功推动了多模态嵌入技术的进展，然而现有模型本质上仍属于判别式模型，限制了其从推理驱动的生成范式中获益的能力。本研究开创性地探索生成式嵌入方法，将嵌入任务统一于生成范式之中。我们提出UME-R1——一种通用多模态嵌入框架，采用两阶段训练策略：通过冷启动监督微调使模型具备推理能力，可同时生成判别式与生成式嵌入；后续的强化学习则增强推理能力并进一步优化生成式嵌入质量。这项开创性工作揭示了四个关键发现：1）生成式嵌入通过利用MLLMs强大的生成推理能力，相较传统判别式嵌入实现显著性能提升；2）判别式与生成式嵌入具有互补性，二者结合的预言机性能远超单一模式；3）强化学习能有效增强生成式嵌入，建立可扩展的优化范式；4）推理阶段的重复采样可提升下游任务覆盖率（pass@k），彰显生成式嵌入在推理时的可扩展潜力。在涵盖视频、图像及视觉文档的78个任务MMEB-V2基准测试中，UME-R1显著优于传统判别式嵌入模型，为构建更具可解释性、推理驱动的生成式多模态嵌入奠定了基础。我们的代码、模型及数据集将公开于https://github.com/XMUDeepLIT/UME-R1。

外科医生距离手术世界模型还有多远？关于零样本手术视频生成的试点研究及专家评估
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment

Nov 3

ByZhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding, Nassir Navab, Jiebo Luo

视频生成基础模型作为模拟物理世界的潜在世界模型，正展现出卓越的能力。然而，这些模型在手术等高风险领域的应用仍存在关键空白——这类领域需要的是深度专业化的因果知识而非通用物理规则。为系统应对这一挑战，我们推出首个专家策划的手术视频生成模型评估基准SurgVeo，以及专为评估从基础表象到复杂手术策略的模型输出而设计的四层框架"手术合理性金字塔"。基于SurgVeo基准，我们让先进Veo-3模型对腹腔镜和神经外科手术片段进行零样本预测任务，并由四位认证外科医生组成的专家组根据SPP框架对生成视频进行评估。研究结果揭示出显著的"合理性鸿沟"：虽然Veo-3在视觉感知合理性层面表现卓越，但在SPP更高层级（包括器械操作合理性、环境反馈合理性和手术意图合理性）存在严重缺陷。这项研究首次量化证明了外科AI中视觉逼真模仿与因果理解之间的巨大差距。通过SurgVeo和SPP的发现，我们为开发能驾驭专业化现实医疗领域复杂性的未来模型奠定了关键基础并绘制了发展路线图。

雅典娜基准：面向网络威胁情报领域的大语言模型动态评估体系
AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

Nov 3

ByMd Tanvirul Alam, Dipkamal Bhusal, Salman Ahmad, Nidhi Rastogi, Peter Worth

大型语言模型（LLM）在自然语言推理方面展现出强大能力，但其在网络威胁情报（CTI）领域的应用仍存在局限。CTI分析涉及将海量非结构化报告提炼为可操作知识，这一流程中LLM可显著减轻分析人员的工作负担。CTIBench曾提出用于评估LLM在多类CTI任务表现的综合性基准。本研究通过开发增强型基准AthenaBench扩展了CTIBench，该基准包含改进的数据集构建流程、重复数据删除机制、优化后的评估指标以及专注于风险缓解策略的新任务。我们评估了12个LLM，包括GPT-5和Gemini-2.5 Pro等尖端专有模型，以及来自LLaMA和Qwen系列的七个开源模型。尽管专有LLM整体表现更优，但在威胁行为者归因和风险缓解等推理密集型任务中仍显不足，开源模型的差距则更为明显。这些发现揭示了当前LLM推理能力的根本局限，凸显了亟需专门针对CTI工作流与自动化需求定制开发的新型模型。

GUI-AIMA：通过上下文锚点对齐内在多模态注意力以实现GUI定位
GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

Nov 2

ByShijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang

图形用户界面（GUI）定位是计算机使用代理的核心功能，其任务是将自然语言指令映射至可操作的屏幕区域。现有基于多模态大语言模型（MLLM）的方法通常将其视为基于文本的坐标生成任务，但直接从视觉输入生成精确坐标仍存在挑战且计算成本高昂。一种直观的实现方式是先筛选与指令相关的视觉区块，再在这些区块内确定精确点击位置。基于通用MLLM的注意力机制中天然蕴含定位能力的发现，我们提出GUI-AIMA——一种基于注意力机制且无需坐标监督的微调框架，用于实现高效GUI定位。该框架通过多头聚合简化后的查询-视觉注意力矩阵，自适应计算多样化用户指令的区块级定位信号，使MLLM固有的多模态注意力与定位信号对齐。其无坐标特性可轻松集成即插即用的局部放大模块。仅用8.5万张屏幕截图训练的GUI-AIMA-3B模型展现出卓越的数据效率，验证了轻量训练即可激发MLLM原生定位能力。该模型在3B参数规模中达到最先进性能，于ScreenSpot-Pro和OSWorld-G数据集上分别取得58.6%和62.2%的平均准确率。项目页面：https://github.com/sjz5202/GUI-AIMA

基于秩-2子空间解耦的多步骤知识交互分析
Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement

Nov 3

BySekh Mainul Islam, Pepa Atanasova, Isabelle Augenstein

自然語言解釋（NLEs）通過結合外部情境知識（CK）與存儲於模型權重中的參數知識（PK），描述大型語言模型（LLMs）的決策機制。理解二者互動關係是評估NLEs基礎可靠性的關鍵，但這一領域仍待深入探索。現有研究大多僅關注單步生成（通常為最終答案），並將PK與CK的互動建模為秩-1子空間中的二元選擇，忽略了互補性、支持性等更豐富的互動形式。我們提出新穎的秩-2投影子空間，能更精準分離PK與CK的貢獻度，並首次實現對長序列NLE中知識互動的多步分析。在四個問答數據集和三種開源權重的指令微調LLMs上的實驗表明：秩-1子空間難以有效表徵多樣化知識互動，而我們的秩-2模型能精確捕捉此類互動。多步分析揭示：虛構型NLE明顯偏向PK維度，情境忠實型NLE平衡PK與CK，而針對NLE的思維鏈提示可通過降低PK依賴使生成結果向CK維度偏移。本研究首創通過更豐富的秩-2子空間分離框架，為系統性探索LLMs中多步知識互動奠定基礎。代碼與數據：https://github.com/copenlu/pk-ck-knowledge-disentanglement。

语境投票：将视觉语言模型转化为零样本排序融合器
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers

Nov 3

ByMohamed Eltahir, Ali Habibullah, Lama Ayash, Tanveer Hussain, Naeemullah Khan

在检索领域，如何融合异构检索器生成的候选结果是一个长期存在的挑战，尤其对于视频这类复杂的多模态数据。典型的融合技术无需训练，但仅依赖排序或分数信号，忽略了候选结果的表征信息。本研究提出上下文投票（ViC）框架，这是一种无需训练的通用方法，将列表式重排序与融合重新定义为视觉语言模型的零样本推理任务。其核心洞见在于将内容证据和检索器元数据直接序列化嵌入VLM提示中，使模型能自适应权衡检索器共识与视觉-语言内容的关系。我们通过将该框架应用于跨模态视频检索这一挑战性领域，验证其普适性。为此，我们引入了S-Grid——一种紧凑的序列化映射表，将每个视频表示为图像网格，并可选择搭配字幕以实现对视频候选集的列表式推理。评估表明，ViC作为单列表重排序器能显著提升个体检索器的精确度，作为集成融合器则持续超越CombSUM等强基线方法。在ActivityNet和VATEX等视频检索基准测试中，该框架实现了零样本检索性能的最新突破，展现了其处理复杂视觉、时序信号与文本协同能力的有效性。在零样本设置下，ViC在MSR-VTT数据集上达到87.1%（文本到视频）/89.0%（视频到文本）的Recall@1分数，在VATEX数据集上实现99.6%（视频到文本）的Recall@1，较之前最优基线提升高达+40个Recall@1点。我们呈现的ViC作为一种简单、可复现且高效的方案，能将现代VLM转化为强大的零样本重排序与融合工具。代码与资源已开源：https://github.com/mohammad2012191/ViC