MemEye: Uma Estrutura de Avaliação Centrada no Visual para Memória de Agente Multimodal

Resumo

A memória de longo prazo de agentes é cada vez mais multimodal, no entanto, as avaliações existentes raramente testam se os agentes preservam as evidências visuais necessárias para raciocínios posteriores. Em trabalhos anteriores, muitas perguntas fundamentadas visualmente podiam ser respondidas usando apenas legendas ou vestígios textuais, permitindo inferir respostas sem preservar evidências visuais detalhadas. Entretanto, casos mais difíceis que exigem raciocínio sobre estados visuais em mudança estão em grande parte ausentes. Portanto, apresentamos o MemEye, uma estrutura que avalia capacidades de memória em duas dimensões: uma mede a granularidade das evidências visuais decisivas (desde evidências no nível da cena até o nível do pixel), e a outra mede como as evidências recuperadas devem ser usadas (desde uma única evidência até síntese evolutiva). Sob essa estrutura, construímos um novo conjunto de referência em 8 tarefas de cenários da vida real, com portas de validação orientadas por ablação para avaliar a capacidade de resposta, resistência a atalhos, necessidade visual e estrutura de raciocínio. Ao avaliar 13 métodos de memória em 4 backbones de VLM, mostramos que as arquiteturas atuais ainda têm dificuldade em preservar detalhes visuais finos e raciocinar sobre mudanças de estado ao longo do tempo. Nossos achados indicam que a memória multimodal de longo prazo depende de roteamento de evidências, rastreamento temporal e extração de detalhes.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.