ChatPaper.aiChatPaper

Agentische Leerder met Groeiend en Verfijnd Multimodaal Semantisch Geheugen

Agentic Learner with Grow-and-Refine Multimodal Semantic Memory

November 26, 2025
Auteurs: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI

Samenvatting

MLLM's vertonen sterke redeneervaardigheden bij geïsoleerde vragen, maar werken de novo – ze lossen elk probleem onafhankelijk op en herhalen vaak dezelfde fouten. Bestaande geheugenversterkte agents slaan voornamelijk eerdere trajecten op voor hergebruik. Trajectgebaseerd geheugen lijdt echter aan beknoptheidsbias, waarbij essentiële domeinkennis geleidelijk verloren gaat. Cruciaal is dat het, zelfs in echt multimodale probleemoplossingscontexten, slechts een unimodale trace van eerder gedrag vastlegt, zonder te bewaren hoe visuele aandacht en logisch redeneren gezamenlijk bijdroegen aan de oplossing. Dit staat fundamenteel haaks op de menselijke cognitie: semantisch geheugen is zowel multimodaal als geïntegreerd, en bewaart visuele en abstracte kennis via gecoördineerde maar onderscheiden representatiestromen. Daarom introduceren we ViLoMem, een dual-stream geheugenkader dat compact, schema-gebaseerd geheugen opbouwt. Het codeert visuele afleidingspatronen en logische redeneerfouten afzonderlijk, waardoor MLLM's kunnen leren van hun succesvolle en mislukte ervaringen. Volgend op een groei-en-verfijn-principe accumuleert en actualiseert het systeem incrementeel multimodale semantische kennis – het behoudt stabiele, generaliseerbare strategieën en vermijdt catastrofale vergetelheid. Over zes multimodale benchmarks verbetert ViLoMem consistent de pass@1-nauwkeurigheid en vermindert het herhaalde visuele en logische fouten aanzienlijk. Ablaties bevestigen de noodzaak van dual-stream geheugen met expliciete scheiding van afleiding-hallucinatie, wat de waarde aantoont van foutbewust multimodaal geheugen voor levenslang en domeinoverschrijdend agent-leren. Onze projectpagina zal beschikbaar zijn op https://weihao-bo.github.io/ViLoMeo-page.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.
PDF92December 1, 2025