ChatPaper.aiChatPaper

Aprendiz Agéntico con Memoria Semántica Multimodal de Crecimiento y Refinamiento

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

November 26, 2025
Autores: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI

Resumen

Los MLLM exhiben un razonamiento sólido en consultas aisladas, pero operan de novo: resuelven cada problema de forma independiente y a menudo repiten los mismos errores. Los agentes con memoria existentes almacenan principalmente trayectorias pasadas para su reutilización. Sin embargo, la memoria basada en trayectorias sufre de un sesgo de brevedad, perdiendo gradualmente conocimiento esencial del dominio. Más críticamente, incluso en entornos de resolución de problemas verdaderamente multimodales, registra solo un rastro unimodal del comportamiento pasado, sin preservar cómo la atención visual y el razonamiento lógico contribuyeron conjuntamente a la solución. Esto está fundamentalmente desalineado con la cognición humana: la memoria semántica es multimodal e integrada, preservando conocimiento visual y abstracto a través de flujos representacionales coordinados pero distintos. Por ello, presentamos ViLoMem, un marco de memoria de flujo dual que construye una memoria compacta basada en esquemas. Codifica por separado los patrones de distracción visual y los errores de razonamiento lógico, permitiendo a los MLLM aprender de sus experiencias exitosas y fallidas. Siguiendo un principio de crecimiento y refinamiento, el sistema acumula y actualiza incrementalmente conocimiento semántico multimodal, preservando estrategias estables y generalizables mientras evita el olvido catastrófico. En seis benchmarks multimodales, ViLoMem mejora consistentemente la precisión pass@1 y reduce sustancialmente los errores visuales y lógicos repetidos. Las ablaciones confirman la necesidad de una memoria de flujo dual con una separación explícita entre distracción y alucinación, demostrando el valor de una memoria multimodal consciente de los errores para el aprendizaje agentico continuo y cross-domain. Nuestra página del proyecto estará disponible en https://weihao-bo.github.io/ViLoMeo-page.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
PDF92December 1, 2025