MuSEAgent: Un Agente di Ragionamento Multimodale con Esperienze Stateful
MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences
March 29, 2026
Autori: Shijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, Zongyuan Ge
cs.AI
Abstract
Gli agenti di ricerca hanno recentemente compiuto progressi significativi nella ricerca e sintesi di informazioni attraverso fonti eterogenee testuali e visive. In questo articolo presentiamo MuSEAgent, un agente di ragionamento multimodale che migliora il processo decisionale estendendo le capacità degli agenti di ricerca per scoprire e sfruttare esperienze con stato. Invece di affidarsi al recupero di esperienze a livello di traiettoria, proponiamo un paradigma di apprendimento esperienziale con stato che astrae i dati di interazione in esperienze decisionali atomiche attraverso un ragionamento retrospettivo. Queste esperienze sono organizzate in una banca esperienziale filtrata per qualità che supporta il recupero guidato da policy durante l'inferenza. Nello specifico, MuSEAgent abilita lo sfruttamento adattivo delle esperienze attraverso strategie complementari di ricerca ampia e profonda, consentendo all'agente di recuperare dinamicamente guide multimodali attraverso diversi punti di vista semantici compositivi. Esperimenti estesi dimostrano che MuSEAgent supera costantemente i baseline di recupero esperienziale a livello di traiettoria sia in compiti di percezione visiva fine che in compiti complessi di ragionamento multimodale. Questi risultati convalidano l'efficacia della modellazione esperienziale con stato nel migliorare il ragionamento degli agenti multimodali.
English
Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.