MemLens: Evaluación comparativa de la memoria a largo plazo multimodal en grandes modelos de visión y lenguaje

Resumen

La memoria es esencial para que los grandes modelos de lenguaje-visión (LVLMs) manejen interacciones largas y multimodales, existiendo dos direcciones metodológicas que proporcionan esta capacidad: LVLMs de contexto largo y agentes aumentados con memoria. Sin embargo, ningún punto de referencia existente realiza una comparación sistemática de ambos enfoques en preguntas que realmente requieren evidencia multimodal. Para llenar este vacío, presentamos MEMLENS, un punto de referencia integral para la memoria en conversaciones multimodales de múltiples sesiones, que comprende 789 preguntas en cinco habilidades de memoria (extracción de información, razonamiento en múltiples sesiones, razonamiento temporal, actualización de conocimiento y rechazo de respuesta) en cuatro longitudes de contexto estándar (32K–256K tokens) bajo un esquema de conteo de tokens entre modalidades. Un estudio de ablación de imágenes confirma que resolver MEMLENS requiere evidencia visual: eliminar imágenes de evidencia reduce la precisión de dos LVLMs punteros por debajo del 2% en el 80.4% de las preguntas cuya evidencia incluye imágenes. Al evaluar 27 LVLMs y 7 agentes aumentados con memoria, encontramos que los LVLMs de contexto largo logran una alta precisión en contextos cortos mediante un fundamento visual directo, pero se degradan a medida que las conversaciones se alargan, mientras que los agentes de memoria son estables en longitud pero pierden fidelidad visual bajo compresión en el momento del almacenamiento. El razonamiento en múltiples sesiones limita a la mayoría de los sistemas por debajo del 30%, y ninguno de los enfoques por sí solo resuelve la tarea. Estos resultados motivan arquitecturas híbridas que combinen atención de contexto largo con recuperación multimodal estructurada. Nuestro código está disponible en https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.