AI研究論文每日精選

每日精選AI研究論文及翻譯

明日是否依然為真？多語言常青問題分類以提升可信問答
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27

BySergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

140

大型語言模型（LLMs）在問答（QA）任務中常出現幻覺現象。一個關鍵但尚未充分探討的因素是問題的時間性——即問題是常青的（答案隨時間保持穩定）還是可變的（答案會變化）。在本研究中，我們引入了EverGreenQA，這是首個帶有常青標籤的多語言QA數據集，支持評估與訓練。利用EverGreenQA，我們對12個現代LLMs進行了基準測試，以評估它們是否通過言語化判斷（顯式）或不確定性信號（隱式）來編碼問題的時間性。此外，我們訓練了EG-E5，這是一個輕量級的多語言分類器，在該任務上達到了SoTA性能。最後，我們展示了常青分類在三個應用中的實際效用：提升自我知識估計、過濾QA數據集，以及解釋GPT-4o的檢索行為。

PartCrafter：基於組合式潛在擴散變換器的結構化3D網格生成
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Jun 5

ByYuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki

我們推出了PartCrafter，這是首個結構化的3D生成模型，能夠從單張RGB圖像中聯合合成多個語義明確且幾何特徵各異的3D網格。與現有方法不同，這些方法要么生成單一的3D形狀，要么遵循兩階段流程（即先分割圖像再重建每個部分），PartCrafter採用了一種統一的、組合式的生成架構，無需依賴預分割的輸入。基於單張圖像，它能夠同時對多個3D部件進行去噪，實現從端到端的部件感知生成，無論是單個物體還是複雜的多物體場景。PartCrafter建立在一個預訓練的3D網格擴散變換器（DiT）基礎上，該變換器針對完整物體進行訓練，繼承了預訓練的權重、編碼器和解碼器，並引入了兩項關鍵創新：（1）一個組合式的潛在空間，其中每個3D部件由一組解耦的潛在標記表示；（2）一種分層注意力機制，該機制支持在單個部件內部以及所有部件之間進行結構化信息流動，確保在生成過程中保持全局一致性的同時，保留部件層次的細節。為了支持部件級別的監督，我們通過從大規模3D物體數據集中挖掘部件級別註釋，策劃了一個新的數據集。實驗表明，PartCrafter在生成可分解的3D網格方面優於現有方法，包括在輸入圖像中不可直接見到的部件，展示了部件感知生成先驗在3D理解與合成中的強大能力。代碼和訓練數據將被公開。

少中求真：高效多模态推理中的高价值数据筛选
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Jun 5

ByShenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu

尽管多模态大语言模型（MLLMs）通过强化学习在复杂推理任务中取得了显著进展，但普遍认为提升多模态推理能力需要大量训练数据，这不可避免地导致了数据冗余和巨大的计算成本。然而，较小的高价值数据集能否在多模态推理中与完整语料库相媲美甚至超越？在本研究中，我们通过一个关键观察挑战了这一假设：有意义的的多模态推理仅由训练样本中的稀疏子集——即认知样本——触发，而大多数样本贡献微乎其微。基于这一洞见，我们提出了一种新颖的数据选择范式，称为推理激活潜力（RAP），它通过两个互补的估计器来识别认知样本，评估每个样本激发真正多模态推理的潜力：1）基于潜在结果模型原则的因果差异估计器（CDE），通过比较多模态输入与纯文本输入下的输出，剔除过度依赖语言先验的样本；2）注意力置信度估计器（ACE），利用标记级别的自注意力机制，排除在中间推理阶段被无关但过度强调的标记主导的样本。此外，我们引入了难度感知替换模块（DRM），用认知上具有挑战性的实例替换简单实例，从而确保复杂性的多模态推理。在六个数据集上的实验表明，我们的RAP方法仅使用9.3%的训练数据就持续实现了卓越的性能，同时将计算成本降低了超过43%。我们的代码可在https://github.com/Leo-ssl/RAP获取。

利用自注意力机制实现大语言模型中的输入依赖性软提示
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

Jun 5

ByAnanth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay

大型語言模型在特定領域任務中的表現，往往需要進行微調，這一過程既耗費計算資源又具備技術挑戰性。本文聚焦於採用軟提示的參數高效微調方法，這是一種通過學習少量參數來使預訓練模型適應下游任務的潛力途徑。我們提出了一種新穎的基於輸入依賴的軟提示技術，該技術結合了自注意力機制（ID-SPAM），能夠根據輸入令牌生成軟提示，並對不同令牌賦予不同的重要性關注。我們的方法簡潔高效，保持了可訓練參數的數量較少。我們展示了所提方法相較於現有頂尖技術在多項任務上的優勢，並展現了其提升的零樣本領域遷移能力。

MORSE-500：一個可程式化控制的影片基準測試，用於壓力測試多模態推理能力
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Jun 5

ByZikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang

儘管視覺語言模型（VLMs）取得了快速進展，當前的多模態推理基準在三個關鍵維度上仍顯不足。首先，這些基準過度依賴靜態圖像，未能捕捉現實世界環境中的時間複雜性。其次，它們過於狹隘地聚焦於數學問題解決，忽視了更廣泛的推理技能——包括抽象、物理、規劃、空間和時間能力——這些都是實現強大多模態智能所必需的。第三，許多基準很快達到飽和，為診斷失敗模式或衡量持續進步提供的空間有限。我們引入了MORSE-500（多模態推理壓力測試環境），這是一個由500個完全腳本化的視頻片段組成的基準，這些片段嵌入了跨越六個互補推理類別的問題。每個實例都是通過確定性的Python腳本（使用Manim、Matplotlib、MoviePy）、生成式視頻模型以及精選的真實素材程序化生成的。這種腳本驅動的設計允許對視覺複雜性、干擾物密度和時間動態進行細粒度控制——使得難度能夠隨著模型的改進而系統性地提升。與一旦飽和就過時的靜態基準不同，MORSE-500被設計為可進化：其可控的生成管道支持創建任意挑戰性的新實例，使其非常適合用於壓力測試下一代模型。與最先進系統的初步實驗——包括代表當時最強性能的各種Gemini 2.5 Pro和OpenAI o3，以及強大的開源模型——揭示了在所有類別中存在的顯著性能差距，特別是在抽象和規劃任務上表現出尤為明顯的不足。我們發布了完整的數據集、生成腳本和評估工具，以支持透明、可重現且前瞻性的多模態推理研究。

FusionAudio-1.2M：迈向基于多模态上下文融合的细粒度音频描述
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Jun 1

ByShunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

高質量、大規模的音頻描述對於推進音頻理解至關重要，然而當前的自動化方法往往生成的描述缺乏細粒度細節和上下文準確性，這主要歸因於它們依賴於有限的單模態或淺層的多模態信息。受人類聽覺感知的啟發，其巧妙地整合了跨模態線索並進行了複雜的聽覺場景分析，我們引入了一種新穎的兩階段自動化流程。該流程首先利用專門的預訓練模型提取多樣的上下文線索（例如，來自相關視頻的語音、音樂、一般聲音和視覺信息）。隨後，一個大型語言模型（LLM）綜合這些豐富的多模態輸入，生成詳細且上下文感知的音頻描述。本工作的主要貢獻包括：（1）提出的可擴展的細粒度音頻描述生成方法；（2）FusionAudio，一個包含120萬條此類詳細描述及600萬個問答對的新大規模數據集；以及（3）利用FusionAudio開發的增強音頻模型，特別是基於CLAP的音頻編碼器，具有優越的音頻-文本對齊和指令跟隨能力。本文為更細膩和準確地自動理解複雜音頻環境鋪平了道路。代碼和數據可在https://github.com/satsuki2486441738/FusionAudio找到。

STARFlow：面向高分辨率圖像合成的潛在歸一化流擴展技術
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jun 6

ByJiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai

我們提出STARFlow，這是一種基於正規化流（normalizing flows）的可擴展生成模型，在高分辨率圖像合成中展現出強勁性能。STARFlow的核心是Transformer自回歸流（TARFlow），它結合了正規化流的表達能力與自回歸Transformer的結構化建模能力。我們首先確立了TARFlow在建模連續分佈上的理論普適性。基於此，我們引入了幾項關鍵的架構與算法創新，顯著提升了模型的可擴展性：（1）深淺層設計，其中一個深層Transformer塊承載了模型的大部分表示能力，輔以少數計算效率高且效果顯著的淺層Transformer塊；（2）在預訓練自編碼器的潛在空間中進行建模，這比直接進行像素級建模更為有效；（3）一種新穎的引導算法，大幅提升了樣本質量。關鍵在於，我們的模型仍保持為端到端的正規化流，使得在連續空間中無需離散化即可進行精確的最大似然訓練。STARFlow在類別條件與文本條件的圖像生成任務中均達到了競爭性的性能，在樣本質量上接近最先進的擴散模型。據我們所知，這是首次成功展示正規化流在如此規模與分辨率下有效運作的研究。

擴展模態是否邁向全模態的正確途徑？
Is Extending Modality The Right Path Towards Omni-Modality?

Jun 2

ByTinghui Zhu, Kai Zhang, Muhao Chen, Yu Su

全模态語言模型（OLMs）旨在整合並推理多樣化的輸入模態——如文本、圖像、視頻和音頻——同時保持強大的語言能力。儘管近期取得了進展，現有模型，尤其是開源模型，仍遠未實現真正的全模態，難以在訓練所針對的特定模態對之外進行泛化，或在處理多模態輸入時達到強勁性能。我們研究了擴展模態這一訓練多模態模型的主導技術的效果，其中現成的語言模型在目標領域和語言數據上進行微調。具體而言，我們探討了三個關鍵問題：（1）模態擴展是否會損害核心語言能力？（2）模型合併能否有效整合獨立微調的模態特定模型以實現全模態？（3）與順序擴展相比，全模態擴展是否會帶來更好的知識共享和泛化能力？通過大量實驗，我們分析了這些權衡，並對使用當前方法實現真正全模態的可行性提供了見解。

Sentinel：防範提示注入攻擊的頂尖模型
Sentinel: SOTA model to protect against prompt injections

Jun 5

ByDror Ivry, Oran Nahum

大型語言模型（LLMs）日益強大，但仍易受提示注入攻擊的影響，此類惡意輸入會導致模型偏離其預定指令。本文介紹了Sentinel，一種基於\answerdotai/ModernBERT-large架構的新型檢測模型qualifire/prompt-injection-sentinel。通過利用ModernBERT的先進特性，並在包含多個開源和私有數據集的廣泛且多樣化的數據集上進行微調，Sentinel實現了最先進的性能。該數據集融合了多種攻擊類型，從角色扮演和指令劫持到生成偏見內容的嘗試，以及廣泛的良性指令，其中私有數據集特別針對細微的錯誤修正和現實世界中的誤分類。在一個全面且未見的內部測試集上，Sentinel展示了平均準確率為0.987和F1分數為0.980的表現。此外，在公共基準測試中，它始終優於protectai/deberta-v3-base-prompt-injection-v2等強基線。本文詳細介紹了Sentinel的架構、其精細的數據集策劃、訓練方法以及全面的評估，突出了其卓越的檢測能力。

醫學世界模型：腫瘤演化的生成模擬用於治療規劃
Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

Jun 2

ByYijun Yang, Zhao-Yang Wang, Qiuping Liu, Shuwen Sun, Kang Wang, Rama Chellappa, Zongwei Zhou, Alan Yuille, Lei Zhu, Yu-Dong Zhang, Jieneng Chen

提供有效治療並做出明智的臨床決策，是現代醫學與臨床照護的核心目標。我們致力於模擬疾病動態以輔助臨床決策，並充分利用大型生成模型的最新進展。為此，我們引入了醫學世界模型（Medical World Model, MeWM），這是首個在醫學領域中基於臨床決策視覺化預測未來疾病狀態的世界模型。MeWM由兩部分組成：(i) 作為策略模型的視覺-語言模型，以及(ii) 作為動態模型的腫瘤生成模型。策略模型生成如臨床治療的行動計劃，而動態模型則模擬在特定治療條件下腫瘤的進展或消退。基於此，我們提出了逆動態模型，該模型將生存分析應用於模擬的治療後腫瘤，從而評估治療效果並選擇最佳的臨床行動方案。結果顯示，所提出的MeWM通過合成治療後腫瘤來模擬疾病動態，在放射科醫生評估的圖靈測試中展現了頂尖的特異性。同時，其逆動態模型在優化個體化治療方案的所有指標上均優於醫學專用GPT。值得注意的是，MeWM提升了介入醫師的臨床決策能力，在選擇最佳TACE方案時的F1分數提高了13%，為未來醫學世界模型作為第二讀者的整合鋪平了道路。

音頻感知大型語言模型作為語音風格的評判者
Audio-Aware Large Language Models as Judges for Speaking Styles

Jun 6

ByCheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

音訊感知大型語言模型（ALLMs）能夠理解音訊輸入中的文本與非文本資訊。本文探討將ALLMs作為自動評判者，用於評估演講的說話風格。我們運用ALLM評判者來評估由語音語言模型（SLMs）在兩項任務上生成的演講：語音風格指令遵循與角色扮演。所考量的說話風格包括情感、音量、語速、詞語強調、音高控制及非語言元素。我們採用四種語音語言模型完成這兩項任務，並由人類與ALLMs對SLMs的回應進行評判。我們比較了兩種ALLM評判者——GPT-4o-audio與Gemini-2.5-pro——與人類評判結果，顯示Gemini與人類評判者之間的一致性可與人類評判者之間的一致性相媲美。這些積極結果表明，ALLMs可作為評判者來評估SLMs。我們的結果同時揭示，即便是GPT-4o-audio，現有的SLMs在控制說話風格與生成自然對話方面仍有改進空間。

AssetOpsBench：工業資產運營與維護中任務自動化AI代理的基準測試
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance

Jun 4

ByDhaval Patel, Shuxin Lin, James Rayfield, Nianjun Zhou, Roman Vaculin, Natalia Martinez, Fearghal O'donncha, Jayant Kalagnanam

工業資產生命週期管理的AI技術旨在自動化複雜的運營流程——如狀態監控、維護規劃和干預調度——以減輕人力負擔並最小化系統停機時間。傳統的AI/ML方法主要孤立地解決這些問題，在更廣泛的運營管道中處理狹窄的任務。相比之下，AI代理和大型語言模型（LLMs）的出現引入了新一代的機遇：實現整個資產生命週期的端到端自動化。本文展望了一個未來，其中AI代理自主管理以往需要專門知識和手動協調的任務。為此，我們引入了AssetOpsBench——一個統一的框架和環境，旨在指導為工業4.0應用量身定制的領域特定代理的開發、編排和評估。我們概述了此類整體系統的關鍵需求，並提供了構建整合感知、推理和控制以應對現實世界工業運營的代理的可操作見解。該軟件可在https://github.com/IBM/AssetOpsBench獲取。

MIRIAD：以數百萬醫療問答對增強大型語言模型
MIRIAD: Augmenting LLMs with millions of medical query-response pairs

Jun 6

ByQinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor

大型語言模型（LLMs）必將通過先進的決策支持和靈活的聊天助手來改變醫療保健。然而，LLMs容易生成不準確的醫療內容。為了將LLMs基於高質量的醫學知識，LLMs已通過檢索增強生成（RAG）配備了外部知識，其中非結構化的醫學知識被分割成小文本塊，可以選擇性地檢索並整合到LLMs的上下文中。然而，現有的RAG管道依賴於原始、非結構化的醫學文本，這些文本可能嘈雜、未經整理，且難以讓LLMs有效利用。系統性地組織醫學知識以最佳方式呈現給LLMs的方法普遍缺乏。為應對這些挑戰，我們引入了MIRIAD，這是一個大規模、經過整理的包含5,821,948個醫學問答對的語料庫，每個問答對都是從同行評審的醫學文獻中重新表述並基於其段落，使用結合LLM生成、過濾、基於和人工註釋的半自動化管道。與依賴非結構化文本的先前醫學語料庫不同，MIRIAD以操作化的查詢-響應格式封裝了網絡規模的醫學知識，這使得檢索更加有針對性。在具有挑戰性的醫學問答基準測試上的實驗表明，與使用相同源語料庫和相同檢索文本量的非結構化RAG基線相比，使用MIRIAD增強LLMs的準確性提高了高達6.7%。此外，MIRIAD將LLMs檢測醫學幻覺的能力提高了22.5%至37%（F1分數的增加）。我們進一步引入了MIRIAD-Atlas，這是一個涵蓋56個醫學學科的MIRIAD互動地圖，使臨床用戶能夠視覺化探索、搜索和精煉醫學知識。MIRIAD有望解鎖大量下游應用，包括醫學信息檢索器、增強型RAG應用程序和基於知識的聊天界面，最終在醫療保健中實現更可靠的LLM應用。

同儕評級精準度：基於DataSeeds標註圖像構建視覺模型微調的基礎數據集
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Jun 6

BySajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz

現代人工智慧（AI）模型的發展，尤其是應用於電腦視覺和圖像生成任務的擴散模型，正在經歷方法論上的範式轉變。傳統上以「模型為中心」的方法為主導，該方法主要通過日益複雜的模型架構和超參數優化來追求性能提升，而如今該領域正逐漸認識到一種更為細緻的「數據為中心」方法。這一新興框架將訓練數據的質量、結構和相關性置於模型性能提升的核心位置。為實現這一範式轉變，我們引入了DataSeeds.AI樣本數據集（簡稱「DSD」），該數據集最初包含約10,610張經過人類同行評級的高質量攝影圖像，並配備了廣泛的多層次註釋。DSD是一個基礎性的電腦視覺數據集，旨在為商業圖像數據集樹立新標準。作為DataSeed.AI超過1億張圖像目錄中的一小部分，DSD為穩健的商業和多模態AI開發提供了可擴展的基礎。通過這項深入的探索性分析，我們記錄了DSD在特定模型上相對於已知基準的定量改進，並公開了評估中使用的代碼和訓練模型。

CodeContests+：競技程式設計中的高品質測試案例生成
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Jun 6

ByZihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen

競技編程，因其高推理難度及精確的正確性反饋，已成為訓練與評估大型語言模型（LLMs）推理能力的關鍵任務。然而，儘管有大量公開的問題數據，如問題陳述與解決方案可供利用，這些問題的測試案例往往難以獲取。因此，測試案例生成是構建大規模數據集的必要任務，而測試案例的質量直接決定了評估的準確性。本文介紹了一種基於LLM的代理系統，該系統能為競技編程問題創建高質量的測試案例。我們將此系統應用於CodeContests數據集，並提出了一個測試案例改進的新版本，命名為CodeContests+。我們評估了CodeContests+中測試案例的質量。首先，我們利用172萬份帶有通過/失敗標籤的提交來檢驗這些測試案例在評估中的準確性。結果表明，CodeContests+相較於CodeContests實現了顯著更高的準確性，尤其是在真陽性率（TPR）上有顯著提升。隨後，我們在LLM強化學習（RL）中的實驗進一步證實，測試案例質量的提升為RL帶來了可觀的優勢。

跨越視角：基於自我中心與他者中心視覺的跨視角協作智能綜述
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Jun 6

ByYuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato

從自我中心（第一人稱）與他者中心（第三人稱）雙重視角感知世界，是人類認知的基本能力，它賦予了我們對動態環境豐富且互補的理解。近年來，讓機器利用這兩種視角的協同潛力，已成為視頻理解領域一個引人注目的研究方向。本綜述全面回顧了從他者中心與自我中心視角出發的視頻理解研究。我們首先強調了整合自我中心與他者中心技術的實際應用，展望了它們跨領域合作的潛力。隨後，我們確定了實現這些應用的關鍵研究任務。接著，我們系統地梳理並將最新進展歸納為三大研究方向：（1）利用自我中心數據增強他者中心理解，（2）運用他者中心數據提升自我中心分析，以及（3）統一雙重視角的聯合學習框架。針對每個方向，我們分析了一系列多樣化的任務及相關工作。此外，我們討論了支持雙重視角研究的基準數據集，評估了它們的範圍、多樣性及適用性。最後，我們探討了當前工作的侷限性，並提出了未來研究的潛在方向。通過綜合雙重視角的洞見，我們旨在激發視頻理解與人工智能的進步，使機器更接近於以人類的方式感知世界。相關工作的GitHub倉庫可訪問：https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision。

物理場景的點雲渲染：從不完美機器人數據實現端到端的真實到模擬轉換
Splatting Physical Scenes: End-to-End Real-to-Sim from Imperfect Robot Data

Jun 4

ByBen Moran, Mauro Comi, Steven Bohez, Tom Erez, Zhibin Li, Leonard Hasenclever

從真實世界的機器人運動直接創建精確的物理模擬，對於實現安全、可擴展且經濟高效的機器人學習具有重要價值，但這仍然是一項極具挑戰性的任務。真實的機器人數據存在遮擋、噪聲相機姿態和動態場景元素等問題，這些都阻礙了對未見物體進行幾何精確且逼真的數字孿生創建。我們提出了一種新穎的真實到模擬框架，能夠同時應對所有這些挑戰。我們的核心洞察在於一種混合場景表示法，它將3D高斯濺射的逼真渲染與適合物理模擬的顯式物體網格結合在單一表示中。我們提出了一個端到端的優化流程，該流程利用MuJoCo中的可微分渲染和可微分物理，直接從原始且不精確的機器人軌跡中聯合優化所有場景組件——從物體幾何和外觀到機器人姿態及物理參數。這種統一的優化使我們能夠同時實現高保真物體網格重建、生成逼真的新視圖，並進行無標註的機器人姿態校準。我們在模擬中以及使用ALOHA 2雙臂操作器的真實世界複雜序列上展示了我們方法的有效性，從而實現了更實用、更穩健的真實到模擬流程。

3DFlowAction：從3D流動世界中學習跨實體操作模型
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model

Jun 6

ByHongyan Zhi, Peihao Chen, Siyuan Zhou, Yubo Dong, Quanxi Wu, Lei Han, Mingkui Tan

長期以來，操控一直是機器人面臨的挑戰，而人類卻能輕鬆地與物體進行複雜的互動，例如將杯子掛在杯架上。一個關鍵原因在於缺乏一個大規模且統一的數據集來教授機器人操控技能。現有的機器人數據集通常記錄的是機器人在簡單場景中不同動作空間的行為，這阻礙了機器人學習到適用於不同機器人和多樣場景的統一且魯棒的動作表示。通過觀察人類如何理解操控任務，我們發現理解物體在3D空間中應如何移動是引導動作的關鍵線索。這一線索與具體的實體無關，既適用於人類也適用於不同的機器人。基於此，我們旨在從人類和機器人的操控數據中學習一個3D流動世界模型。該模型預測交互物體在3D空間中的未來運動，從而指導操控動作的規劃。具體而言，我們通過一個移動物體自動檢測管道合成了一個大規模的3D光流數據集，命名為ManiFlow-110k。隨後，一個基於視頻擴散的世界模型從這些數據中學習操控物理，生成基於語言指令的3D光流軌跡。利用生成的3D物體光流，我們提出了一種流動引導的渲染機制，該機制渲染預測的最終狀態，並利用GPT-4o評估預測的光流是否與任務描述相符。這賦予了機器人閉環規劃的能力。最後，我們將預測的3D光流作為優化策略的約束，以確定一系列用於操控的機器人動作。大量實驗表明，該方法在多樣化的機器人操控任務中展現出強大的泛化能力，並能在無需針對特定硬件訓練的情況下實現可靠的跨實體適應。

HASHIRU：混合智能资源利用的层次化代理系统
HASHIRU: Hierarchical Agent System for Hybrid Intelligent Resource Utilization

Jun 1

ByKunal Pai, Parth Shah, Harshil Patel

大型語言模型（LLM）的快速發展正推動著自主多代理系統（MAS）的進步。然而，現有框架往往缺乏靈活性、資源意識、模型多樣性及自主工具創建能力。本文介紹了HASHIRU（分層代理系統用於混合智能資源利用），這是一種新型MAS框架，旨在提升靈活性、資源效率及適應性。HASHIRU配備了一個“CEO”代理，動態管理基於任務需求與資源限制（成本、內存）實例化的專業“員工”代理。其混合智能優先使用較小、本地的LLM（通過Ollama），並在必要時靈活調用外部API及更大模型。引入包含招聘/解僱成本的經濟模型，促進了團隊穩定性和資源高效分配。該系統還具備自主API工具創建功能及記憶機制。在學術論文審查（成功率58%）、安全評估（JailbreakBench子集上100%通過）及複雜推理（在GSM8K上超越Gemini 2.0 Flash：96%對61%；JEEBench：80%對68.3%；SVAMP：92%對84%）等任務上的評估，展示了HASHIRU的強大能力。案例研究揭示了其通過自主成本模型生成、工具集成及預算管理實現自我提升的過程。HASHIRU通過動態分層控制、資源感知的混合智能及自主功能擴展，為構建更為堅固、高效且適應性強的MAS提供了有前景的解決方案。源代碼與基準測試分別可在https://github.com/HASHIRU-AI/HASHIRU和https://github.com/HASHIRU-AI/HASHIRUBench獲取，並可根據請求在https://hashiruagentx-hashiruai.hf.space訪問實時演示。

當語義誤導視覺：減輕大型多模態模型在場景文字偵測與理解中的幻覺現象
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Jun 5

ByYan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe

大型多模态模型（LMMs）在视觉感知和推理方面取得了显著进展。然而，当面对视觉上模糊或非语义的场景文本时，它们往往难以准确识别和理解内容，经常生成语义上合理但视觉上错误的答案，这种现象我们称之为语义幻觉。在本研究中，我们探讨了语义幻觉的根本原因，并发现了一个关键现象：在LLM中，Transformer层对场景文本区域注意力越强，产生语义幻觉的可能性就越低。因此，我们提出了一种无需训练的语义幻觉缓解框架，该框架包含两个关键组件：（1）ZoomText，一种从粗到细的策略，无需外部检测器即可识别潜在的文本区域；（2）基于层的校正，自适应地利用不易产生幻觉的层内部表示来指导解码，在纠正非语义样本的幻觉输出的同时，保留有意义样本的语义。为了进行严格评估，我们引入了TextHalu-Bench，这是一个包含超过1,730个样本的基准测试集，涵盖语义和非语义案例，并配有精心设计的手动标注问答对，旨在探测模型的幻觉现象。大量实验表明，我们的方法不仅有效缓解了语义幻觉，还在场景文本识别和理解的公共基准测试中表现出色。

前綴分組器：通過共享前綴前向實現高效的GRPO訓練
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Jun 5

ByZikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu

群組相對策略優化（Group Relative Policy Optimization, GRPO）通過從共享相同輸入前綴的候選輸出之間的相對比較中計算梯度，從而增強策略學習。儘管其效果顯著，GRPO在處理長共享前綴時引入了顯著的計算開銷，這些前綴必須為每個群組成員冗餘編碼。這種低效性在長上下文學習場景中成為主要的可擴展性瓶頸。我們提出了前綴群組器（Prefix Grouper），這是一種高效的GRPO訓練算法，通過共享前綴前向策略消除了冗餘的前綴計算。具體而言，通過將自注意力機制重構為兩部分，我們的方法使得共享前綴僅需編碼一次，同時保持完全的可微分性並與端到端訓練兼容。我們提供了理論和實證證據，證明前綴群組器在訓練上等同於標準GRPO：它產生相同的正向輸出和反向梯度，確保優化動態和最終策略性能保持不變。實證上，我們的實驗證實前綴群組器在顯著降低訓練計算成本的同時，特別是在長前綴場景中，實現了一致的結果。所提出的方法完全即插即用：它與現有的基於GRPO的架構兼容，並可以無縫集成到當前的訓練管道中作為直接替換，無需結構修改，僅需對輸入構建和注意力計算進行最小化更改。前綴群組器使得在相同的計算預算下可以使用更大的群組規模，從而提高了GRPO在更複雜任務和更大模型上的可擴展性。代碼現已於https://github.com/johncaged/PrefixGrouper提供。

當模型所知超越其解釋能力：量化人機協作中的知識轉移
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Jun 5

ByQuan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan

近期人工智能推理领域的进展，已在多种任务上带来了显著的性能提升。一个关键且悬而未决的问题是，这些进步是否同样促进了知识的有效迁移：即模型能否以人类可理解、可应用并从中学习的方式传达其推理过程。为探究此问题，我们引入了知识整合与迁移评估（KITE），这是一个针对人机知识迁移能力的概念与实验框架，并开展了首次大规模人类研究（N=118），该研究明确设计用于衡量这一能力。在我们的两阶段实验设置中，人类首先与AI共同构思问题解决策略，随后独立实施解决方案，以此隔离模型解释对人类理解的影响。研究发现，尽管模型基准性能与协作成果之间存在相关性，但这种关系显著不一致，存在明显的异常值，表明知识迁移需要专门的优化。我们的分析揭示了影响知识迁移成功的行为与策略因素。我们公开了代码、数据集及评估框架，以支持未来在沟通对齐模型方面的研究工作。

GuideX：面向零樣本信息抽取的引導式合成數據生成
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31

ByNeil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre

資訊抽取（IE）系統傳統上具有領域特定性，需要進行昂貴的適應過程，包括專家模式設計、資料標註及模型訓練。儘管大型語言模型在零樣本資訊抽取中展現出潛力，但在標籤定義不同的未知領域中，其性能顯著下降。本文介紹了GUIDEX，一種新穎的方法，能自動定義領域特定模式、推導指導方針並生成合成標註實例，從而實現更好的跨領域泛化能力。通過使用GUIDEX對Llama 3.1進行微調，在七個零樣本命名實體識別基準測試中創下了新的最佳紀錄。與先前方法相比，利用GUIDEX訓練的模型在無人為標註資料的情況下，F1分數提升了多達7分，而與之結合時，則提升了近2分。基於GUIDEX訓練的模型展現出對複雜、領域特定註解模式更深入的理解。相關程式碼、模型及合成資料集可於neilus03.github.io/guidex.com獲取。

稀疏化狀態空間模型是高效的高速網路架構
Sparsified State-Space Models are Efficient Highway Networks

May 27

ByWoomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin

狀態空間模型（SSMs）為序列建模提供了一種極具前景的架構，通過以線性遞歸取代昂貴的自注意力機制，為Transformer提供了一種替代方案。本文提出了一種簡單而有效的技巧，通過稀疏化來在給定的計算預算內增強SSMs。我們的直覺是，由於漸進的遞歸更新，SSMs中的令牌存在高度冗餘，而密集的遞歸操作阻礙了過去信息的傳遞。特別地，我們觀察到SSMs的上層因編碼全局信息而趨於更為冗餘，而下層則編碼局部信息。基於此，我們引入了Simba，一種基於令牌剪枝的SSMs分層稀疏化方法。Simba對上層進行比下層更為顯著的稀疏化，促使上層表現得像高速公路一樣。為實現這一點，我們提出了一種新穎的SSMs令牌剪枝標準，通過累積局部遞歸來衡量令牌對最終輸出的全局影響。我們證明，在各種自然語言任務中，Simba在相同浮點運算次數（FLOPS）下優於基準模型Mamba。此外，我們展示了高速公路效應，表明Simba不僅提升了效率，還改善了長序列間的信息流動。代碼已發佈於https://github.com/woominsong/Simba。

AI研究論文每日精選

每日精選AI研究論文及翻譯

明日是否依然為真？多語言常青問題分類以提升可信問答
Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

May 27

BySergey Pletenev, Maria Marina, Nikolay Ivanov, Daria Galimzianova, Nikita Krayko, Mikhail Salnikov, Vasily Konovalov, Alexander Panchenko, Viktor Moskvoretskii

140

PartCrafter：基於組合式潛在擴散變換器的結構化3D網格生成
PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Jun 5

ByYuchen Lin, Chenguo Lin, Panwang Pan, Honglei Yan, Yiqiang Feng, Yadong Mu, Katerina Fragkiadaki

少中求真：高效多模态推理中的高价值数据筛选
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning

Jun 5

ByShenshen Li, Kaiyuan Deng, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Heng Tao Shen, Xing Xu

利用自注意力机制实现大语言模型中的输入依赖性软提示
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

Jun 5

ByAnanth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay

MORSE-500：一個可程式化控制的影片基準測試，用於壓力測試多模態推理能力
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Jun 5

ByZikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang

FusionAudio-1.2M：迈向基于多模态上下文融合的细粒度音频描述
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion

Jun 1

ByShunian Chen, Xinyuan Xie, Zheshu Chen, Liyan Zhao, Owen Lee, Zhan Su, Qilin Sun, Benyou Wang

STARFlow：面向高分辨率圖像合成的潛在歸一化流擴展技術
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis

Jun 6

ByJiatao Gu, Tianrong Chen, David Berthelot, Huangjie Zheng, Yuyang Wang, Ruixiang Zhang, Laurent Dinh, Miguel Angel Bautista, Josh Susskind, Shuangfei Zhai

擴展模態是否邁向全模態的正確途徑？
Is Extending Modality The Right Path Towards Omni-Modality?

Jun 2

ByTinghui Zhu, Kai Zhang, Muhao Chen, Yu Su

Sentinel：防範提示注入攻擊的頂尖模型
Sentinel: SOTA model to protect against prompt injections

Jun 5

ByDror Ivry, Oran Nahum

醫學世界模型：腫瘤演化的生成模擬用於治療規劃
Medical World Model: Generative Simulation of Tumor Evolution for Treatment Planning

Jun 2

ByYijun Yang, Zhao-Yang Wang, Qiuping Liu, Shuwen Sun, Kang Wang, Rama Chellappa, Zongwei Zhou, Alan Yuille, Lei Zhu, Yu-Dong Zhang, Jieneng Chen

音頻感知大型語言模型作為語音風格的評判者
Audio-Aware Large Language Models as Judges for Speaking Styles

Jun 6

ByCheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang

AssetOpsBench：工業資產運營與維護中任務自動化AI代理的基準測試
AssetOpsBench: Benchmarking AI Agents for Task Automation in Industrial Asset Operations and Maintenance

Jun 4

ByDhaval Patel, Shuxin Lin, James Rayfield, Nianjun Zhou, Roman Vaculin, Natalia Martinez, Fearghal O'donncha, Jayant Kalagnanam

MIRIAD：以數百萬醫療問答對增強大型語言模型
MIRIAD: Augmenting LLMs with millions of medical query-response pairs

Jun 6

ByQinyue Zheng, Salman Abdullah, Sam Rawal, Cyril Zakka, Sophie Ostmeier, Maximilian Purk, Eduardo Reis, Eric J. Topol, Jure Leskovec, Michael Moor

同儕評級精準度：基於DataSeeds標註圖像構建視覺模型微調的基礎數據集
Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery

Jun 6

BySajjad Abdoli, Freeman Lewin, Gediminas Vasiliauskas, Fabian Schonholz

CodeContests+：競技程式設計中的高品質測試案例生成
CodeContests+: High-Quality Test Case Generation for Competitive Programming

Jun 6

ByZihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen

跨越視角：基於自我中心與他者中心視覺的跨視角協作智能綜述
Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision

Jun 6

ByYuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato

當語義誤導視覺：減輕大型多模態模型在場景文字偵測與理解中的幻覺現象
When Semantics Mislead Vision: Mitigating Large Multimodal Models Hallucinations in Scene Text Spotting and Understanding

Jun 5

ByYan Shu, Hangui Lin, Yexin Liu, Yan Zhang, Gangyan Zeng, Yan Li, Yu Zhou, Ser-Nam Lim, Harry Yang, Nicu Sebe

前綴分組器：通過共享前綴前向實現高效的GRPO訓練
Prefix Grouper: Efficient GRPO Training through Shared-Prefix Forward

Jun 5

ByZikang Liu, Tongtian Yue, Yepeng Tang, Longteng Guo, Junxian Cai, Qingbin Liu, Xi Chen, Jing Liu

當模型所知超越其解釋能力：量化人機協作中的知識轉移
When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration

Jun 5

ByQuan Shi, Carlos E. Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik Narasimhan

GuideX：面向零樣本信息抽取的引導式合成數據生成
GuideX: Guided Synthetic Data Generation for Zero-Shot Information Extraction

May 31

ByNeil De La Fuente, Oscar Sainz, Iker García-Ferrero, Eneko Agirre

稀疏化狀態空間模型是高效的高速網路架構
Sparsified State-Space Models are Efficient Highway Networks

May 27

ByWoomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin