MuSEAgent: Un Agente de Razonamiento Multimodal con Experiencias con Estado

Resumen

Los agentes de investigación han logrado recientemente avances significativos en la búsqueda y síntesis de información a través de fuentes heterogéneas textuales y visuales. En este artículo, presentamos MuSEAgent, un agente de razonamiento multimodal que mejora la toma de decisiones al extender las capacidades de los agentes de investigación para descubrir y aprovechar experiencias con estado. En lugar de depender de la recuperación de trayectorias completas, proponemos un paradigma de aprendizaje de experiencias con estado que abstrae los datos de interacción en experiencias de decisión atómicas mediante razonamiento retrospectivo. Estas experiencias se organizan en un banco de experiencias filtradas por calidad que permite la recuperación de experiencias dirigida por políticas durante la inferencia. Específicamente, MuSEAgent permite la explotación adaptativa de experiencias mediante estrategias complementarias de búsqueda amplia y profunda, lo que permite al agente recuperar dinámicamente guías multimodales a través de diversos puntos de vista semánticos composicionales. Experimentos exhaustivos demuestran que MuSEAgent supera consistentemente a los baselines de recuperación de experiencias a nivel de trayectoria tanto en tareas de percepción visual de grano fino como en tareas complejas de razonamiento multimodal. Estos resultados validan la efectividad del modelado de experiencias con estado para mejorar el razonamiento de agentes multimodales.

English

Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.

MuSEAgent: Un Agente de Razonamiento Multimodal con Experiencias con Estado

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Resumen

Support