MemEye: Een visueel-centrisch evaluatiekader voor multimodale agentgeheugens

Samenvatting

Langetermijnagentgeheugen wordt steeds multimodaler, maar bestaande evaluaties testen zelden of agenten het visuele bewijs behouden dat nodig is voor latere redeneringen. In eerder werk konden veel visueel gefundeerde vragen worden beantwoord met alleen bijschriften of tekstuele sporen, waardoor antwoorden konden worden afgeleid zonder het gedetailleerde visuele bewijs te bewaren. Tegelijkertijd ontbreken grotendeels moeilijkere gevallen die redeneringen over veranderende visuele toestanden vereisen. Daarom introduceren we MemEye, een raamwerk dat geheugencapaciteiten evalueert vanuit twee dimensies: de ene meet de granulariteit van doorslaggevend visueel bewijs (van sceneniveau tot pixelniveau), en de andere meet hoe opgehaald bewijs moet worden gebruikt (van enkelvoudig bewijs tot evolutionaire synthese). Binnen dit raamwerk construeren we een nieuwe benchmark voor 8 levensscenario-taken, met ablatie-gedreven validatiepoorten voor het beoordelen van beantwoordbaarheid, shortcutresistentie, visuele noodzaak en redeneerstructuur. Door 13 geheugenmethoden te evalueren over 4 VLM-basismodellen heen, tonen we aan dat huidige architecturen nog steeds moeite hebben met het bewaren van fijnmazige visuele details en het redeneren over toestandsveranderingen in de tijd. Onze bevindingen laten zien dat multimodal langetermijngeheugen afhankelijk is van bewijskanaalkeuze, temporele tracking en details extractie.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.