MemEye: Un marco de evaluación centrado en lo visual para la memoria de agentes multimodales

Resumen

La memoria a largo plazo de los agentes es cada vez más multimodal, pero las evaluaciones existentes rara vez comprueban si los agentes preservan la evidencia visual necesaria para el razonamiento posterior. En trabajos previos, muchas preguntas basadas en información visual pueden responderse utilizando solo descripciones o trazas textuales, lo que permite inferir respuestas sin necesidad de conservar la evidencia visual detallada. Mientras tanto, los casos más difíciles que requieren razonar sobre estados visuales cambiantes son prácticamente inexistentes. Por ello, presentamos MemEye, un marco que evalúa las capacidades de memoria desde dos dimensiones: una mide la granularidad de la evidencia visual decisiva (desde evidencia a nivel de escena hasta evidencia a nivel de píxel), y la otra mide cómo debe utilizarse la evidencia recuperada (desde evidencia única hasta síntesis evolutiva). Bajo este marco, construimos un nuevo conjunto de referencia en 8 tareas de escenarios cotidianos, con compuertas de validación impulsadas por ablación para evaluar la capacidad de respuesta, la resistencia a atajos, la necesidad visual y la estructura de razonamiento. Mediante la evaluación de 13 métodos de memoria en 4 modelos base de VLM, demostramos que las arquitecturas actuales aún tienen dificultades para preservar detalles visuales finos y razonar sobre cambios de estado a lo largo del tiempo. Nuestros hallazgos indican que la memoria multimodal a largo plazo depende del enrutamiento de la evidencia, el seguimiento temporal y la extracción de detalles.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.