MuSEAgent: 상태 기반 경험을 갖춘 다중 모드 추론 에이전트
MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences
March 29, 2026
저자: Shijian Wang, Jiarui Jin, Runhao Fu, Zexuan Yan, Xingjian Wang, Mengkang Hu, Eric Wang, Xiaoxi Li, Kangning Zhang, Li Yao, Wenxiang Jiao, Xuelian Cheng, Yuan Lu, Zongyuan Ge
cs.AI
초록
최근 연구 에이전트는 이질적인 텍스트 및 시각적 자료에 걸친 정보 탐색 및 종합 분야에서 큰 진전을 이루었습니다. 본 논문에서는 상태 기반 경험을 발견하고 활용하는 연구 에이전트의 능력을 확장하여 의사 결정을 강화하는 다중 모달 추론 에이전트인 MuSEAgent를 소개합니다. 궤적 수준 검색에 의존하는 대신, 우리는 사후 추론을 통해 상호 작용 데이터를 원자적 의사 결정 경험으로 추상화하는 상태 기반 경험 학습 패러다임을 제안합니다. 이러한 경험들은 품질 필터링된 경험 은행으로 구성되어 추론 시 정책 기반 경험 검색을 지원합니다. 구체적으로 MuSEAgent는 상호 보완적인 광역 및 심층 검색 전략을 통해 적응형 경험 활용을 가능하게 하여, 다양한 구성적 의미론적 관점에서 다중 모달 지침을 동적으로 검색할 수 있도록 합니다. 대규모 실험 결과, MuSEAgent가 세밀한 시각 인식 및 복잡한 다중 모달 추론 과제 모두에서 강력한 궤적 수준 경험 검색 기준선을 지속적으로 능가함을 입증했습니다. 이러한 결과는 다중 모달 에이전트 추론 향상에 있어 상태 기반 경험 모델링의 효과성을 검증합니다.
English
Research agents have recently achieved significant progress in information seeking and synthesis across heterogeneous textual and visual sources. In this paper, we introduce MuSEAgent, a multimodal reasoning agent that enhances decision-making by extending the capabilities of research agents to discover and leverage stateful experiences. Rather than relying on trajectory-level retrieval, we propose a stateful experience learning paradigm that abstracts interaction data into atomic decision experiences through hindsight reasoning. These experiences are organized into a quality-filtered experience bank that supports policy-driven experience retrieval at inference time. Specifically, MuSEAgent enables adaptive experience exploitation through complementary wide- and deep-search strategies, allowing the agent to dynamically retrieve multimodal guidance across diverse compositional semantic viewpoints. Extensive experiments demonstrate that MuSEAgent consistently outperforms strong trajectory-level experience retrieval baselines on both fine-grained visual perception and complex multimodal reasoning tasks. These results validate the effectiveness of stateful experience modeling in improving multimodal agent reasoning.