MuSEAgent : Un agent de raisonnement multimodal avec expériences à état

Résumé

Les agents de recherche ont récemment réalisé des progrès significatifs dans la recherche d'informations et la synthèse à travers des sources textuelles et visuelles hétérogènes. Dans cet article, nous présentons MuSEAgent, un agent de raisonnement multimodal qui améliore la prise de décision en étendant les capacités des agents de recherche pour découvrir et exploiter des expériences avec état. Plutôt que de s'appuyer sur la récupération d'expériences au niveau trajectoire, nous proposons un paradigme d'apprentissage par expérience avec état qui abstrait les données d'interaction en expériences décisionnelles atomiques via un raisonnement rétrospectif. Ces expériences sont organisées en une banque d'expériences filtrée par qualité qui supporte une récupération d'expériences pilotée par une politique lors de l'inférence. Plus précisément, MuSEAgent permet une exploitation adaptative des expériences grâce à des stratégies de recherche complémentaires larges et profondes, permettant à l'agent de récupérer dynamiquement des guidages multimodaux à travers divers points de vue sémantiques compositionnels. Des expériences approfondies démontrent que MuSEAgent surpasse constamment les bases de référence de récupération d'expériences au niveau trajectoire sur des tâches de perception visuelle fine et de raisonnement multimodal complexe. Ces résultats valident l'efficacité de la modélisation d'expériences avec état pour améliorer le raisonnement des agents multimodaux.

English

Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.

MuSEAgent : Un agent de raisonnement multimodal avec expériences à état

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Résumé

Support