MemLens: Бенчмаркинг мультимодальной долговременной памяти в больших визуально-языковых моделях

Аннотация

Память необходима большим визуально-языковым моделям (LVLM) для обработки длительных мультимодальных взаимодействий, причем два направления методов обеспечивают эту способность: длинноконтекстные LVLM и агенты с дополненной памятью. Однако ни один существующий бенчмарк не проводит систематического сравнения этих двух подходов на вопросах, которые действительно требуют мультимодальных доказательств. Чтобы восполнить этот пробел, мы представляем MEMLENS — всеобъемлющий бенчмарк для памяти в мультимодальных многосессионных диалогах, состоящий из 789 вопросов, охватывающих пять способностей памяти (извлечение информации, межсессионное рассуждение, временное рассуждение, обновление знаний и отказ от ответа) при четырех стандартных длинах контекста (от 32K до 256K токенов) в рамках схемы подсчета токенов с перекрестной модальностью. Исследование с абляцией изображений подтверждает, что решение задач MEMLENS требует визуальных доказательств: удаление изображений с доказательствами снижает точность двух передовых LVLM ниже 2% на 80,4% вопросов, доказательства которых включают изображения. Оценивая 27 LVLM и 7 агентов с дополненной памятью, мы обнаруживаем, что длинноконтекстные LVLM достигают высокой точности на коротких контекстах за счет прямого визуального привязывания, но деградируют по мере роста диалогов, тогда как агенты с памятью стабильны к длине, но теряют визуальную точность при сжатии во время хранения. Межсессионное рассуждение ограничивает большинство систем точностью ниже 30%, и ни один подход по отдельности не решает задачу. Эти результаты мотивируют создание гибридных архитектур, которые сочетают внимание с длинным контекстом и структурированный мультимодальный поиск. Наш код доступен по адресу https://github.com/xrenaf/MEMLENS.

English

Memory is essential for large vision-language models (LVLMs) to handle long, multimodal interactions, with two method directions providing this capability: long-context LVLMs and memory-augmented agents. However, no existing benchmark conducts a systematic comparison of the two on questions that genuinely require multimodal evidence. To close this gap, we introduce MEMLENS, a comprehensive benchmark for memory in multimodal multi-session conversations, comprising 789 questions across five memory abilities (information extraction, multi-session reasoning, temporal reasoning, knowledge update, and answer refusal) at four standard context lengths (32K-256K tokens) under a cross-modal token-counting scheme. An image-ablation study confirms that solving MEMLENS requires visual evidence: removing evidence images drops two frontier LVLMs below 2% accuracy on the 80.4% of questions whose evidence includes images. Evaluating 27 LVLMs and 7 memory-augmented agents, we find that long-context LVLMs achieve high short-context accuracy through direct visual grounding but degrade as conversations grow, whereas memory agents are length-stable but lose visual fidelity under storage-time compression. Multi-session reasoning caps most systems below 30%, and neither approach alone solves the task. These results motivate hybrid architectures that combine long-context attention with structured multimodal retrieval. Our code is available at https://github.com/xrenaf/MEMLENS.