MemLens: Бенчмаркинг мультимодальной долговременной памяти в больших визуально-языковых моделях
MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
May 14, 2026
Авторы: Xiyu Ren, Zhaowei Wang, Yiming Du, Zhongwei Xie, Chi Liu, Xinlin Yang, Haoyue Feng, Wenjun Pan, Tianshi Zheng, Baixuan Xu, Zhengnan Li, Yangqiu Song, Ginny Wong, Simon See
cs.AI
Аннотация
Память необходима большим визуально-языковым моделям (LVLM) для обработки длительных мультимодальных взаимодействий, причем два направления методов обеспечивают эту способность: длинноконтекстные LVLM и агенты с дополненной памятью. Однако ни один существующий бенчмарк не проводит систематического сравнения этих двух подходов на вопросах, которые действительно требуют мультимодальных доказательств. Чтобы восполнить этот пробел, мы представляем MEMLENS — всеобъемлющий бенчмарк для памяти в мультимодальных многосессионных диалогах, состоящий из 789 вопросов, охватывающих пять способностей памяти (извлечение информации, межсессионное рассуждение, временное рассуждение, обновление знаний и отказ от ответа) при четырех стандартных длинах контекста (от 32K до 256K токенов) в рамках схемы подсчета токенов с перекрестной модальностью. Исследование с абляцией изображений подтверждает, что решение задач MEMLENS требует визуальных доказательств: удаление изображений с доказательствами снижает точность двух передовых LVLM ниже 2% на 80,4% вопросов, доказательства которых включают изображения. Оценивая 27 LVLM и 7 агентов с дополненной памятью, мы обнаруживаем, что длинноконтекстные LVLM достигают высокой точности на коротких контекстах за счет прямого визуального привязывания, но деградируют по мере роста диалогов, тогда как агенты с памятью стабильны к длине, но теряют визуальную точность при сжатии во время хранения. Межсессионное рассуждение ограничивает большинство систем точностью ниже 30%, и ни один подход по отдельности не решает задачу. Эти результаты мотивируют создание гибридных архитектур, которые сочетают внимание с длинным контекстом и структурированный мультимодальный поиск. Наш код доступен по адресу https://github.com/xrenaf/MEMLENS.
English
Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.