ChatPaper.aiChatPaper

Агентный обучающийся с растущей и уточняющей мультимодальной семантической памятью

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

November 26, 2025
Авторы: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI

Аннотация

MLLM демонстрируют высокие способности к рассуждению при работе с изолированными запросами, однако они функционируют *de novo* — решая каждую задачу независимо и зачастую повторяя одни и те же ошибки. Существующие агенты, дополненные памятью, в основном сохраняют прошлые траектории для повторного использования. Однако память на основе траекторий страдает от brevity bias (смещения в сторону краткости), постепенно утрачивая ключевые предметные знания. Что более важно, даже в подлинно мультимодальных условиях решения задач она фиксирует лишь одномодальный след прошлого поведения, не сохраняя того, как визуальное внимание и логическое рассуждение совместно способствовали нахождению решения. Это фундаментально не согласуется с человеческим познанием: семантическая память является одновременно мультимодальной и интегрированной, сохраняя визуальные и абстрактные знания через согласованные, но различные репрезентационные потоки. Таким образом, мы представляем ViLoMem — двухпотоковую framework памяти, которая строит компактную, схематическую память. Она раздельно кодирует паттерны визуального отвлечения и ошибки логического рассуждения, позволяя MLLM обучаться на основе как успешного, так и неудачного опыта. Следуя принципу роста и уточнения, система инкрементально накапливает и обновляет мультимодальные семантические знания — сохраняя стабильные, обобщаемые стратегии и избегая катастрофического забывания. На шести мультимодальных бенчмарках ViLoMem стабильно повышает точность pass@1 и существенно сокращает повторяющиеся визуальные и логические ошибки. Абляционные исследования подтверждают необходимость двухпотоковой памяти с явным разделением на отвлечения и галлюцинации, демонстрируя ценность мультимодальной памяти, учитывающей ошибки, для непрерывного и междоменного агентского обучения. Страница проекта будет доступна по адресу https://weihao-bo.github.io/ViLoMeo-page.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
PDF92December 1, 2025