MuSEAgent: Um Agente de Raciocínio Multimodal com Experiências com Estado
MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences
March 29, 2026
Autores: Shijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, Zongyuan Ge
cs.AI
Resumo
Os agentes de pesquisa alcançaram recentemente progressos significativos na busca e síntese de informações em fontes textuais e visuais heterogêneas. Neste artigo, apresentamos o MuSEAgent, um agente de raciocínio multimodal que aprimora a tomada de decisão ao estender as capacidades dos agentes de pesquisa para descobrir e alavancar experiências com estado. Em vez de depender da recuperação de trajetórias, propomos um paradigma de aprendizagem por experiência com estado que abstrai dados de interação em experiências decisórias atômicas por meio de raciocínio retrospectivo. Essas experiências são organizadas em um banco de experiências com filtro de qualidade que suporta a recuperação de experiências orientada por políticas durante a inferência. Especificamente, o MuSEAgent permite a exploração adaptativa de experiências por meio de estratégias complementares de busca ampla e profunda, permitindo que o agente recupere dinamicamente orientação multimodal em diversas perspectivas semânticas composicionais. Experimentos extensivos demonstram que o MuSEAgent supera consistentemente baselines de recuperação de experiência em nível de trajetória tanto em tarefas de percepção visual de granularidade fina quanto em tarefas complexas de raciocínio multimodal. Esses resultados validam a eficácia da modelagem de experiências com estado na melhoria do raciocínio de agentes multimodais.
English
Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.