WorldMemArena: Bewertung des multimodalen Agentengedächtnisses durch Aktions-Welt-Interaktion

Zusammenfassung

Multimodale große Sprachmodelle werden zunehmend als langfristig agierende Agenten eingesetzt, bei denen das Gedächtnis mehr leisten muss als bloßes Abrufen: Es muss eine sich entwickelnde Welt verfolgen, Veraltetes revidieren und zur Entscheidungszeit die richtigen Belege hervorholen. Bestehende Benchmarks messen das Abrufen über statische Dialoge, reduzieren das Gedächtnis auf eine einzige Endaufgabengenauigkeit und reduzieren visuelle Beobachtungen auf Bildunterschriften, sodass wir nicht in der Lage sind, Fehler auf das Schreiben, die Wartung, das Abrufen oder die Nutzung zu lokalisieren. Der Aufstieg von Agenten-Systemen, die ihr eigenes Gedächtnis verfassen, verschärft diese Lücke, da wir keine prinzipielle Möglichkeit haben, handgefertigte Pipelines mit selbstverwaltenden Alternativen zu vergleichen. Um diese Lücken zu schließen, formulieren wir multimodales Agentengedächtnis als einen Aktions-Welt-Interaktionszyklus mit einem beobachtbaren vierstufigen Lebenszyklus und setzen ihn in WorldMemArena um: 400 multi-session multimodale Aufgaben, die lebenslange Evolution (sich entwickelnde persönliche und Aufgabenstände) und agentische Ausführung (Gedächtnis aus realen Beobachtungen, Aktionen und Rückmeldungen) umfassen, annotiert mit goldenen Gedächtnispunkten, Aktualisierungen, Ablenkungen und Beweisketten für eine stufenweise Diagnose. Dies ermöglicht den ersten direkten Vergleich von langkontextuellen, manuell entworfenen (RAG und externe Gedächtnissysteme) und systembasierten Gedächtnisagenten. Die Ergebnisse zeigen, dass: (1) besseres Gedächtnisschreiben und -speichern keine bessere Leistung garantieren; (2) multimodales Gedächtnis immer noch Schwierigkeiten hat, visuelle Belege vollständig zu nutzen; (3) Systeme über Domänen hinweg instabil sind und bei realistischen agentischen Trajektorien absinken; und (4) systembasiertes Gedächtnis flexibler ist, aber teuer und weniger zuverlässig bleibt.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.