WorldMemArena: evaluatie van multimodaal agentgeheugen via actie-wereldinteractie

Samenvatting

Multimodale grote taalmodellen worden steeds vaker ingezet als langetermijnagenten, waarbij het geheugen meer moet doen dan alleen herinneren: het moet een evoluerende wereld bijhouden, verouderde informatie herzien, en de juiste bewijzen naar voren brengen op het moment van besluitvorming. Bestaande benchmarks meten herinnering over statische dialoog, reduceren geheugen tot een enkelvoudige nauwkeurigheid aan het einde van de taak, en beperken visuele waarnemingen tot bijschriften, waardoor we niet in staat zijn om fouten te lokaliseren in schrijven, onderhoud, ophalen of gebruik. De opkomst van agent-harnesses die hun eigen geheugen beheren, verscherpt deze lacune, aangezien we geen principiële manier hebben om handmatig ontworpen pijplijnen te vergelijken met zelfbeherende alternatieven. Om deze lacunes te dichten, formuleren we multimodaal agentgeheugen als een Actie-Wereld Interactielus met een waarneembare vierfasenlevenscyclus, en implementeren we dit in WorldMemArena: 400 multisessie multimodale taken die Levenslange Evolutie (evoluerende persoonlijke en taaktoestanden) en Agentische Uitvoering (geheugen uit echte waarnemingen, acties en feedback) omvatten, geannoteerd met gouden geheugenpunten, updates, afleiders en bewijsketens voor diagnose op faseniveau. Dit maakt de eerste directe vergelijking mogelijk tussen langere context, handmatig ontworpen (RAG en externe geheugensystemen) en op harness gebaseerde geheugenagenten. Resultaten tonen aan dat: (1) beter geheugenschrijven en -opslag geen betere prestaties garanderen; (2) multimodaal geheugen nog steeds moeite heeft om visueel bewijs volledig te gebruiken; (3) systemen instabiel zijn over domeinen en verslechteren op realistische agentische trajecten; en (4) harness-geheugen flexibeler is maar duur en minder betrouwbaar blijft.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.