ChatPaper.aiChatPaper

성장 및 정교화 다중모드 의미 메모리를 갖춘 능동적 학습자

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

November 26, 2025
저자: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI

초록

MLLM은 개별 질의에 대해 강력한 추론 능력을 보이지만, 이들은 데 노보(de novo) 방식으로 작동합니다. 즉, 각 문제를 독립적으로 해결하며 동일한 실수를 반복합니다. 기존의 메모리 증강 에이전트는 주로 과거 궤적을 재사용하기 위해 저장해 왔습니다. 그러나 궤적 기반 메모리는 간략성 편향으로 인해 필수적인 도메인 지식을 점차 상실합니다. 더 중요한 점은, 진정한 다중 모달 문제 해결 환경에서도 과거 행동의 단일 모달 흔적만 기록하여 시각적 주의와 논리적 추론이 어떻게 함께 해결책에 기여했는지 보존하지 못한다는 것입니다. 이는 인간 인지와 근본적으로 차이가 있습니다: 의미 기억은 다중 모달이면서 통합적이며, 조정되지만 구별되는 표현 스트림을 통해 시각적 및 추상적 지식을 보존합니다. 따라서 우리는 ViLoMem이라는 이중 스트림 메모리 프레임워크를 소개합니다. 이는 컴팩트하고 스키마 기반의 메모리를 구축하며, 시각적 주의 분산 패턴과 논리적 추론 오류를 별도로 인코딩하여 MLLM이 성공적 및 실패한 경험으로부터 학습할 수 있게 합니다. 성장 및 정제 원칙에 따라, 이 시스템은 다중 모달 의미 지식을 점진적으로 축적하고 업데이트하며—안정적이고 일반화 가능한 전략을 보존하는 동시에 파국적 망각을 방지합니다. 6개의 다중 모달 벤치마크에서 ViLoMem은 pass@1 정확도를 지속적으로 향상시키고 반복되는 시각적 및 논리적 오류를 상당히 줄였습니다. ablation 연구는 명시적인 주의 분산-환각 분리를 갖춘 이중 스트림 메모리의 필요성을 확인하며, 평생 및 교차 도메인 에이전트 학습을 위한 오류 인식 다중 모달 메모리의 가치를 입증합니다. 우리의 프로젝트 페이지는 https://weihao-bo.github.io/ViLoMeo-page에서 공개될 예정입니다.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
PDF92December 1, 2025