MuSEAgent: Ein multimodaler Reasoning-Agent mit zustandsbehafteten Erfahrungen
MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences
March 29, 2026
Autoren: Shijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, Zongyuan Ge
cs.AI
Zusammenfassung
Forschungsagenten haben in letzter Zeit bedeutende Fortschritte bei der Informationssuche und -synthese über heterogene textuelle und visuelle Quellen hinweg erzielt. In diesem Beitrag stellen wir MuSEAgent vor, einen multimodalen Reasoning-Agenten, der die Entscheidungsfindung verbessert, indem er die Fähigkeiten von Forschungsagenten erweitert, zustandsbehaftete Erfahrungen zu entdecken und zu nutzen. Anstatt sich auf Trajektorien-basiertes Retrieval zu verlassen, schlagen wir ein Paradigma des zustandsbehafteten Erfahrungslernens vor, das Interaktionsdaten durch Hindsight Reasoning in atomare Entscheidungserfahrungen abstrahiert. Diese Erfahrungen werden in einer qualitätsgefilterten Erfahrungsbank organisiert, die zur Inferenzzeit ein policy-gesteuertes Erfahrungs-Retrieval unterstützt. Konkret ermöglicht MuSEAgent eine adaptive Erfahrungsnutzung durch komplementäre Breiten- und Tiefensuchstrategien, die es dem Agenten erlauben, multimodale Guidance dynamisch über diverse kompositionelle semantische Blickwinkel hinweg abzurufen. Umfangreiche Experimente zeigen, dass MuSEAgent durchgängig starke Baseline-Verfahren mit Trajektorien-basiertem Erfahrungs-Retrieval sowohl bei feingranularen visuellen Wahrnehmungs- als auch bei komplexen multimodalen Reasoning-Aufgaben übertrifft. Diese Ergebnisse validieren die Wirksamkeit der zustandsbehafteten Erfahrungsmodellierung zur Verbesserung des multimodalen Agenten-Reasonings.
English
Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.