MemLens : Benchmarking de la mémoire à long terme multimodale dans les grands modèles vision-langage

Résumé

La mémoire est essentielle pour les grands modèles vision-langage (LVLMs) afin de gérer de longues interactions multimodales, avec deux directions méthodologiques offrant cette capacité : les LVLMs à contexte long et les agents à mémoire augmentée. Cependant, aucun benchmark existant ne compare systématiquement les deux sur des questions qui requièrent réellement des preuves multimodales. Pour combler cette lacune, nous présentons MEMLENS, un benchmark complet pour la mémoire dans les conversations multimodales multi-sessions, comprenant 789 questions couvrant cinq capacités de mémoire (extraction d'informations, raisonnement multi-session, raisonnement temporel, mise à jour des connaissances et refus de réponse) à quatre longueurs de contexte standard (32K-256K tokens) selon un schéma de comptage de tokens cross-modal. Une étude d'ablation d'images confirme que résoudre MEMLENS nécessite des preuves visuelles : supprimer les images de preuve fait chuter deux LVLMs de pointe en dessous de 2 % de précision sur les 80,4 % de questions dont les preuves incluent des images. En évaluant 27 LVLMs et 7 agents à mémoire augmentée, nous constatons que les LVLMs à contexte long atteignent une haute précision en contexte court grâce à un ancrage visuel direct mais se dégradent à mesure que les conversations s'allongent, tandis que les agents à mémoire sont stables en longueur mais perdent en fidélité visuelle sous une compression lors du stockage. Le raisonnement multi-session plafonne la plupart des systèmes en dessous de 30 %, et aucune approche seule ne résout la tâche. Ces résultats motivent le développement d'architectures hybrides combinant l'attention à long contexte avec une récupération multimodale structurée. Notre code est disponible sur https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.