MemLens: Benchmarken van Multimodaal Langetermijngeheugen in Grote Visuele-Taalmodellen

Samenvatting

Geheugen is essentieel voor grote visie-taalmodellen (LVLMs) om lange, multimodale interacties te verwerken, waarbij twee methoderichtingen deze capaciteit bieden: lang-context LVLMs en geheugen-versterkte agents. Geen enkele bestaande benchmark voert echter een systematische vergelijking van de twee uit op vragen die daadwerkelijk multimodaal bewijs vereisen. Om deze lacune te vullen, introduceren we MEMLENS, een uitgebreide benchmark voor geheugen in multimodale multi-sessiegesprekken, bestaande uit 789 vragen over vijf geheugenvaardigheden (informatie-extractie, multi-sessie redeneren, temporeel redeneren, kennisupdate en antwoordweigering) op vier standaard contextlengtes (32K-256K tokens) onder een cross-modale token-telschema. Een beeldablatiesstudie bevestigt dat het oplossen van MEMLENS visueel bewijs vereist: het verwijderen van bewijsafbeeldingen laat twee grensverleggende LVLMs onder 2% nauwkeurigheid vallen op de 80,4% van de vragen waarvan het bewijs afbeeldingen omvat. Bij het evalueren van 27 LVLMs en 7 geheugen-versterkte agents vinden we dat lang-context LVLMs hoge korte-context nauwkeurigheid bereiken door directe visuele verankering, maar afnemen naarmate gesprekken langer worden, terwijl geheugenagents lengte-stabiel zijn maar visuele getrouwheid verliezen onder opslagtijdcompressie. Multi-sessie redeneren beperkt de meeste systemen tot onder 30%, en geen van beide benaderingen lost de taak alleen op. Deze resultaten motiveren hybride architecturen die lang-context aandacht combineren met gestructureerde multimodale terugwinning. Onze code is beschikbaar op https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.