Agente Apprendente con Memoria Semantica Multimodale a Crescita e Raffinamento
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
November 26, 2025
Autori: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI
Abstract
I modelli linguistici multimodali (MLLM) mostrano forti capacità di ragionamento su singoli quesiti, ma operano *de novo*, risolvendo ogni problema in modo indipendente e ripetendo spesso gli stessi errori. Gli agenti potenziati con memoria esistenti memorizzano principalmente traiettorie passate per il riutilizzo. Tuttavia, la memoria basata su traiettorie soffre di un bias di brevità, perdendo gradualmente la conoscenza essenziale del dominio. Ancora più critico, persino in contesti di problem-solving veramente multimodali, essa registra solo una traccia unimodale del comportamento passato, non riuscendo a preservare come l'attenzione visiva e il ragionamento logico abbiano contribuito congiuntamente alla soluzione. Ciò è fondamentalmente disallineato con la cognizione umana: la memoria semantica è sia multimodale che integrata, preservando conoscenza visiva e astratta attraverso flussi rappresentativi coordinati ma distinti. Introduciamo quindi ViLoMem, un framework di memoria a doppio flusso che costruisce una memoria compatta e basata su schemi. Esso codifica separatamente i modelli di distrazione visiva e gli errori di ragionamento logico, consentendo agli MLLM di apprendere dalle proprie esperienze di successo e di fallimento. Seguendo un principio di crescita e raffinamento, il sistema accumula e aggiorna incrementalmente la conoscenza semantica multimodale, preservando strategie stabili e generalizzabili ed evitando al contempo l'oblio catastrofico. Su sei benchmark multimodali, ViLoMem migliora costantemente l'accuratezza pass@1 e riduce sostanzialmente gli errori visivi e logici ripetuti. Le ablazioni confermano la necessità della memoria a doppio flusso con una separazione esplicita tra distrazione e allucinazione, dimostrando il valore di una memoria multimodale consapevole degli errori per l'apprendimento agentivo lifelong e cross-dominio. La nostra pagina del progetto sarà disponibile all'indirizzo https://weihao-bo.github.io/ViLoMeo-page.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.