MemEye: визуально-центрическая рамка оценки памяти мультимодального агента

Аннотация

Долговременная память агентов всё чаще становится мультимодальной, однако существующие оценки редко проверяют, сохраняют ли агенты визуальные свидетельства, необходимые для последующих рассуждений. В предыдущих работах многие вопросы, основанные на визуальной информации, можно было ответить, используя только подписи или текстовые следы, что позволяло получать ответы без сохранения детализированных визуальных свидетельств. В то же время более сложные случаи, требующие рассуждений об изменяющихся визуальных состояниях, практически отсутствуют. Поэтому мы представляем MemEye — фреймворк, оценивающий возможности памяти по двум измерениям: одно измеряет детализацию решающих визуальных свидетельств (от уровня сцены до уровня пикселей), а другое — то, как извлечённые свидетельства должны использоваться (от единичного свидетельства до эволюционного синтеза). В рамках этого фреймворка мы создаём новый эталонный набор данных по 8 задачам, моделирующим жизненные сценарии, с валидационными проверками на основе абляции для оценки возможности ответа, устойчивости к shortcut-решениям, визуальной необходимости и структуры рассуждений. Оценив 13 методов работы с памятью на 4 основах VLM, мы показываем, что современные архитектуры по-прежнему испытывают трудности с сохранением детализированных визуальных данных и рассуждениями об изменениях состояния во времени. Наши результаты показывают, что долговременная мультимодальная память зависит от маршрутизации свидетельств, временного отслеживания и извлечения деталей.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.