MemLens: Benchmarking des multimodalen Langzeitgedächtnisses in Large Vision-Language-Modellen

Zusammenfassung

Gedächtnis ist für große visuell-sprachliche Modelle (engl. large vision-language models, LVLMs) unerlässlich, um lange, multimodale Interaktionen zu bewältigen. Zwei methodische Richtungen bieten diese Fähigkeit: Langkontext-LVLMs und gedächtnisgestützte Agenten. Allerdings führt kein bestehender Benchmark einen systematischen Vergleich der beiden Ansätze bei Fragen durch, die tatsächlich multimodale Belege erfordern. Um diese Lücke zu schließen, stellen wir MEMLENS vor, einen umfassenden Benchmark für das Gedächtnis in multimodalen Sitzungsinteraktionen über mehrere Sitzungen hinweg. Dieser umfasst 789 Fragen zu fünf Gedächtnisfähigkeiten (Informationsextraktion, schlussfolgerndes Denken über mehrere Sitzungen, zeitliches Schlussfolgern, Wissensaktualisierung und Antwortverweigerung) bei vier standardmäßigen Kontextlängen (32K–256K Token) unter Verwendung eines kreuzmodalen Token-Zähl-Schemas. Eine Bildablationstudie bestätigt, dass zur Lösung von MEMLENS visuelle Belege erforderlich sind: Das Entfernen von Belegbildern senkt die Genauigkeit zweier führender LVLMs auf unter 2 % bei den 80,4 % der Fragen, deren Belege Bilder enthalten. Bei der Evaluierung von 27 LVLMs und 7 gedächtnisgestützten Agenten stellen wir fest, dass Langkontext-LVLMs durch direkte visuelle Verankerung eine hohe Genauigkeit bei kurzen Kontexten erreichen, aber mit zunehmender Gesprächslänge nachlassen, während Gedächtnisagenten längenstabil sind, aber unter der Kompression während der Speicherung an visueller Genauigkeit verlieren. Das schlussfolgernde Denken über mehrere Sitzungen hinweg begrenzt die meisten Systeme auf unter 30 %, und keiner der beiden Ansätze allein löst die Aufgabe. Diese Ergebnisse motivieren hybride Architekturen, die Langkontext-Aufmerksamkeit mit strukturiertem multimodalen Abruf kombinieren. Unser Code ist verfügbar unter https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.