MemEye: Ein visuell-zentrierter Evaluationsrahmen für multimodales Agentengedächtnis

Zusammenfassung

Das Langzeitgedächtnis von Agenten wird zunehmend multimodal, dennoch testen bestehende Evaluierungen selten, ob Agenten die für spätere Schlussfolgerungen benötigten visuellen Belege bewahren. In früheren Arbeiten konnten viele visuell fundierte Fragen nur mit Bildunterschriften oder Textspuren beantwortet werden, wodurch Antworten abgeleitet werden konnten, ohne die feinkörnigen visuellen Belege zu bewahren. Gleichzeitig fehlen weitgehend schwierigere Fälle, die Schlussfolgerungen über sich ändernde visuelle Zustände erfordern. Daher führen wir MemEye ein, ein Framework, das Gedächtnisfähigkeiten aus zwei Dimensionen bewertet: eine misst die Granularität entscheidender visueller Belege (von szenenebenen bis zu pixelebenen Belegen), und die andere misst, wie abgerufene Belege verwendet werden müssen (von einzelnen Belegen bis zur evolutionären Synthese). Unter diesem Framework konstruieren wir einen neuen Benchmark über 8 Lebensszenario-Aufgaben mit ablationsgesteuerten Validierungsgattern zur Bewertung von Beantwortbarkeit, Abkürzungsresistenz, visueller Notwendigkeit und Schlussfolgerungsstruktur. Durch die Evaluierung von 13 Gedächtnismethoden über 4 VLM-Backbones hinweg zeigen wir, dass aktuelle Architekturen immer noch Schwierigkeiten haben, feinkörnige visuelle Details zu bewahren und über Zustandsänderungen im Laufe der Zeit zu schlussfolgern. Unsere Ergebnisse zeigen, dass das langfristige multimodale Gedächtnis von Beleglenkung, zeitlicher Verfolgung und Detail Extraktion abhängt.

English

Long-term agent memory is increasingly multimodal, yet existing evaluations rarely test whether agents preserve the visual evidence needed for later reasoning. In prior work, many visually grounded questions can be answered using only captions or textual traces, allowing answers to be inferred without preserving the fine-grained visual evidence. Meanwhile, harder cases that require reasoning over changing visual states are largely absent. Therefore, we introduce MemEye, a framework that evaluates memory capabilities from two dimensions: one measures the granularity of decisive visual evidence (from scene-level to pixel-level evidence), and the other measures how retrieved evidence must be used (from single evidence to evolutionary synthesis). Under this framework, we construct a new benchmark across 8 life-scenario tasks, with ablation-driven validation gates for assessing answerability, shortcut resistance, visual necessity, and reasoning structure. By evaluating 13 memory methods across 4 VLM backbones, we show that current architectures still struggle to preserve fine-grained visual details and reason about state changes over time. Our findings show that long-term multimodal memory depends on evidence routing, temporal tracking, and detail extraction.