Apprenant Agentique avec Mémoire Sémantique Multimodale à Croissance et Raffinement
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
November 26, 2025
papers.authors: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI
papers.abstract
Les MLLM démontrent une forte capacité de raisonnement sur des requêtes isolées, mais ils opèrent de novo – résolvant chaque problème indépendamment et répétant souvent les mêmes erreurs. Les agents à mémoire augmentée existants stockent principalement les trajectoires passées pour les réutiliser. Cependant, la mémoire basée sur les trajectoires souffre d'un biais de brièveté, perdant progressivement les connaissances essentielles du domaine. Plus critique encore, même dans des contextes de résolution de problèmes véritablement multimodaux, elle n'enregistre qu'une trace unimodale des comportements passés, échouant à préserver comment l'attention visuelle et le raisonnement logique ont contribué conjointement à la solution. Ceci est fondamentalement inaligné avec la cognition humaine : la mémoire sémantique est à la fois multimodale et intégrée, préservant les connaissances visuelles et abstraites via des flux de représentation coordonnés mais distincts. Nous introduisons donc ViLoMem, un cadre de mémoire à double flux qui construit une mémoire compacte basée sur des schémas. Il encode séparément les patterns de distraction visuelle et les erreurs de raisonnement logique, permettant aux MLLM d'apprendre de leurs expériences réussies et infructueuses. Suivant un principe de croissance et d'affinage, le système accumule et met à jour de manière incrémentale les connaissances sémantiques multimodales – préservant des stratégies stables et généralisables tout en évitant l'oubli catastrophique. Sur six benchmarks multimodaux, ViLoMem améliore constamment la précision pass@1 et réduit substantiellement les erreurs visuelles et logiques répétées. Les études d'ablation confirment la nécessité d'une mémoire à double flux avec une séparation explicite distraction–hallucination, démontrant la valeur d'une mémoire multimodale consciente des erreurs pour l'apprentissage agentique continu et transdomaine. Notre page projet sera disponible à l'adresse https://weihao-bo.github.io/ViLoMeo-page.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.