MuSEAgent: Мультимодальный агент рассуждений с сохранением состояния

Аннотация

В последнее время исследовательские агенты достигли значительного прогресса в поиске и синтезе информации из гетерогенных текстовых и визуальных источников. В данной статье мы представляем MuSEAgent, мультимодального агента рассуждений, который улучшает принятие решений за счет расширения возможностей исследовательских агентов по обнаружению и использованию состоятельного опыта. Вместо опоры на поиск на уровне траекторий мы предлагаем парадигму обучения на состоятельном опыте, которая абстрагирует данные взаимодействия в атомарные решения через ретроспективные рассуждения. Этот опыт организуется в банк опыта с фильтрацией по качеству, который поддерживает поиск опыта на основе политик во время вывода. В частности, MuSEAgent обеспечивает адаптивное использование опыта через комплементарные стратегии широкого и глубокого поиска, позволяя агенту динамически извлекать мультимодальные ориентиры в различных композиционных семантических перспективах. Многочисленные эксперименты демонстрируют, что MuSEAgent стабильно превосходит сильные базовые методы поиска опыта на уровне траекторий как в задачах тонкого визуального восприятия, так и в сложных мультимодальных рассуждениях. Эти результаты подтверждают эффективность моделирования состоятельного опыта для улучшения мультимодальных рассуждений агентов.

English

Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.

MuSEAgent: Мультимодальный агент рассуждений с сохранением состояния

MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

Аннотация

Support