MuSEAgent: Een multimodale redeneeragent met stateful ervaringen

Samenvatting

Onderzoeksagenten hebben recent aanzienlijke vooruitgang geboekt in het zoeken naar en synthetiseren van informatie uit heterogene tekstuele en visuele bronnen. In dit artikel introduceren we MuSEAgent, een multimodale redeneeragent die de besluitvorming verbetert door de mogelijkheden van onderzoeksagenten uit te breiden om stateful ervaringen te ontdekken en te benutten. In plaats van te vertrouwen op retrieval op trajectniveau, stellen we een stateful ervaringsleerparadigma voor dat interactiedata abstraheert naar atomische beslissingservaringen via hindsight reasoning. Deze ervaringen worden georganiseerd in een gekwaliteitsgefilterde ervaringsbank die retrieval van ervaringen op basis van beleid ondersteunt tijdens inferentie. Concreet stelt MuSEAgent adaptieve ervaringsbenutting mogelijk via complementaire brede- en diepzoekstrategieën, waardoor de agent dynamisch multimodale richtlijnen kan ophalen over diverse compositionele semantische perspectieven. Uitgebreide experimenten tonen aan dat MuSEAgent consistent sterke baseline-methoden voor ervaringsretrieval op trajectniveau overtreft, zowel voor fijnmazige visuele perceptie als voor complexe multimodale redeneertaken. Deze resultaten valideren de effectiviteit van stateful ervaringsmodellering voor het verbeteren van multimodaal redeneren bij agenten.

English

Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.

MuSEAgent: Een multimodale redeneeragent met stateful ervaringen

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Samenvatting

Support