MemEye : Un cadre d'évaluation centré sur la vision pour la mémoire d'agent multimodal

Résumé

La mémoire à long terme des agents est de plus en plus multimodale, mais les évaluations existantes testent rarement si les agents préservent les preuves visuelles nécessaires à un raisonnement ultérieur. Dans les travaux antérieurs, de nombreuses questions visuellement fondées peuvent être résolues en utilisant uniquement des légendes ou des traces textuelles, ce qui permet d'inférer les réponses sans préserver les preuves visuelles fines. Parallèlement, les cas plus difficiles nécessitant un raisonnement sur des états visuels changeants sont largement absents. C'est pourquoi nous introduisons MemEye, un cadre qui évalue les capacités de mémoire selon deux dimensions : l'une mesure la granularité des preuves visuelles décisives (du niveau scénique au niveau pixel), et l'autre mesure la manière dont les preuves récupérées doivent être utilisées (de la preuve unique à la synthèse évolutive). Dans ce cadre, nous construisons un nouveau banc d'essai couvrant 8 tâches de scénarios de vie, avec des portes de validation basées sur l'ablation pour évaluer la possibilité de réponse, la résistance aux raccourcis, la nécessité visuelle et la structure de raisonnement. En évaluant 13 méthodes de mémoire sur 4 architectures VLM, nous montrons que les architectures actuelles peinent encore à préserver les détails visuels fins et à raisonner sur les changements d'état au fil du temps. Nos résultats indiquent que la mémoire multimodale à long terme dépend de l'acheminement des preuves, du suivi temporel et de l'extraction des détails.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.