Agentischer Lernender mit wachsendem und verfeinerndem multimodalem semantischem Gedächtnis
Agentic Learner with Grow-and-Refine Multimodal Semantic Memory
November 26, 2025
papers.authors: Weihao Bo, Shan Zhang, Yanpeng Sun, Jingjing Wu, Qunyi Xie, Xiao Tan, Kunbin Chen, Wei He, Xiaofan Li, Na Zhao, Jingdong Wang, Zechao Li
cs.AI
papers.abstract
MLLMs zeigen starke Fähigkeiten beim Lösen isolierter Anfragen, operieren jedoch *de novo* – sie lösen jedes Problem unabhängig und wiederholen oft dieselben Fehler. Bestehende, speichererweiterte Agenten speichern hauptsächlich vergangene Trajektorien zur Wiederverwendung. Trajektorienbasierter Speicher leidet jedoch unter Kurzlebigkeitsverzerrung und verliert allmählich essentielles Domänenwissen. Noch kritischer ist, dass selbst in echt multimodalen Problemszenarien nur eine unimodale Spur vergangenen Verhaltens aufgezeichnet wird, sodass nicht erhalten bleibt, wie visuelle Aufmerksamkeit und logisches Reasoning gemeinsam zur Lösung beigetragen haben. Dies ist grundlegend anders als die menschliche Kognition: Semantisches Gedächtnis ist sowohl multimodal als auch integriert und bewahrt visuelles und abstraktes Wissen durch koordinierte, aber distinkte Repräsentationsströme. Wir führen daher ViLoMem ein, einen Dual-Stream-Gedächtnisrahmen, der kompakten, schema-basierten Speicher aufbaut. Er kodiert visuelle Ablenkungsmuster und logische Denkfehler separat und ermöglicht es MLLMs, aus ihren erfolgreichen und gescheiterten Erfahrungen zu lernen. Nach einem Wachstums-und-Verfeinerungs-Prinzip akkumuliert und aktualisiert das System schrittweise multimodales semantisches Wissen – es bewahrt stabile, verallgemeinerbare Strategien und vermeidet gleichzeitig katastrophales Vergessen. In sechs multimodalen Benchmarks verbessert ViLoMem durchgängig die Pass@1-Genauigkeit und reduziert wiederholte visuelle und logische Fehler erheblich. Ablationstudien bestätigen die Notwendigkeit des Dual-Stream-Speichers mit expliziter Trennung von Ablenkung und Halluzination und demonstrieren den Wert fehlerbewussten multimodalen Gedächtnisses für lebenslanges und domänenübergreifendes agentenbasiertes Lernen. Unsere Projektseite wird unter https://weihao-bo.github.io/ViLoMeo-page verfügbar sein.
English
MLLMs exhibit strong reasoning on isolated queries, yet they operate de novo -- solving each problem independently and often repeating the same mistakes. Existing memory-augmented agents mainly store past trajectories for reuse. However, trajectory-based memory suffers from brevity bias, gradually losing essential domain knowledge. More critically, even in truly multimodal problem-solving settings, it records only a single-modality trace of past behavior, failing to preserve how visual attention and logical reasoning jointly contributed to the solution. This is fundamentally misaligned with human cognition: semantic memory is both multimodal and integrated, preserving visual and abstract knowledge through coordinated but distinct representational streams. We thus introduce ViLoMem, a dual-stream memory framework that constructs compact, schema-based memory. It separately encodes visual distraction patterns and logical reasoning errors, enabling MLLMs to learn from their successful and failed experiences. Following a grow-and-refine principle, the system incrementally accumulates and updates multimodal semantic knowledge -- preserving stable, generalizable strategies while avoiding catastrophic forgetting. Across six multimodal benchmarks, ViLoMem consistently improves pass@1 accuracy and substantially reduces repeated visual and logical errors. Ablations confirm the necessity of dual-stream memory with explicit distraction--hallucination separation, demonstrating the value of error-aware multimodal memory for lifelong and cross-domain agentic learning. Our project page will be available at https://weihao-bo.github.io/ViLoMeo-page.