MemLens: Benchmarking de Memória de Longo Prazo Multimodal em Grandes Modelos de Visão-Linguagem

Resumo

A memória é essencial para modelos de linguagem visual de grande escala (LVLMs) lidarem com interações multimodais longas, com duas direções metodológicas fornecendo essa capacidade: LVLMs de contexto longo e agentes aumentados por memória. No entanto, nenhum benchmark existente realiza uma comparação sistemática entre as duas em questões que exigem genuinamente evidência multimodal. Para preencher essa lacuna, apresentamos o MEMLENS, um benchmark abrangente para memória em conversas multimodais de múltiplas sessões, composto por 789 questões abrangendo cinco habilidades de memória (extração de informações, raciocínio entre sessões, raciocínio temporal, atualização de conhecimento e recusa de resposta) em quatro comprimentos de contexto padrão (32K-256K tokens) sob um esquema de contagem de tokens entre modalidades. Um estudo de ablação de imagens confirma que resolver o MEMLENS exige evidência visual: a remoção de imagens de evidência reduz dois LVLMs de fronteira a menos de 2% de precisão nos 80,4% das questões cuja evidência inclui imagens. Ao avaliar 27 LVLMs e 7 agentes aumentados por memória, descobrimos que LVLMs de contexto longo alcançam alta precisão em contextos curtos por meio de fundamentação visual direta, mas degradam à medida que as conversas crescem, enquanto agentes de memória são estáveis em comprimento, mas perdem fidelidade visual sob compressão durante o armazenamento. O raciocínio entre sessões limita a maioria dos sistemas a menos de 30%, e nenhuma abordagem isoladamente resolve a tarefa. Esses resultados motivam arquiteturas híbridas que combinam atenção de contexto longo com recuperação multimodal estruturada. Nosso código está disponível em https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.