ChatPaper.aiChatPaper

自律的学習者:成長・洗練型マルチモーダル意味メモリ

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

November 26, 2025
著者: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI

要旨

MLLMは個別のクエリに対して強力な推論能力を示す一方で、それらは常に「de novo(新規)」に動作する。つまり、各問題を独立して解決し、同じ過ちを繰り返しがちである。既存のメモリ拡張エージェントは、主に過去の軌跡を再利用のために保存する。しかし、軌跡ベースのメモリは簡潔性バイアスに悩まされ、本質的な領域知識を次第に失っていく。さらに深刻なのは、真にマルチモーダルな問題解決設定においてさえ、過去の行動の単一モダリティの痕跡しか記録せず、視覚的注意と論理的推論がどのように協調して解決に貢献したかを保存できない点である。これは人間の認知と根本的に異なる。人間の意味記憶はマルチモーダルかつ統合的であり、視覚的知識と抽象的な知識を、調整されつつも区別された表現ストリームを通じて保持する。そこで我々はViLoMemを提案する。これはコンパクトでスキーマベースのメモリを構築するデュアルストリームメモリフレームワークである。これは視覚的な注意散漫パターンと論理的推論エラーを別々に符号化し、MLLMが自身の成功および失敗体験から学習することを可能にする。成長・洗練化の原則に従い、システムはマルチモーダルな意味知識を段階的に蓄積・更新する。これにより、安定した一般化可能な戦略を保持しつつ、破滅的忘却を回避する。6つのマルチモーダルベンチマークにわたって、ViLoMemはpass@1精度を一貫して向上させ、繰り返される視覚的・論理的エラーを大幅に削減した。 ablation研究は、注意散漫と幻覚を明示的に分離したデュアルストリームメモリの必要性を確認し、エラーを認識するマルチモーダルメモリが生涯学習およびクロスドメインのエージェント学習にとって価値があることを実証した。プロジェクトページは https://weihao-bo.github.io/ViLoMeo-page で公開予定である。
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
PDF92December 1, 2025