WorldMemArena : Évaluation de la mémoire d'un agent multimodal par l'interaction action-monde

Résumé

Les grands modèles de langage multimodaux sont de plus en plus déployés en tant qu'agents à long terme, où la mémoire ne doit pas seulement restituer des informations, mais aussi suivre un monde en évolution, réviser ce qui est devenu obsolète et faire remonter les preuves appropriées au moment de la prise de décision. Les bancs d'essai existants mesurent la restitution sur des dialogues statiques, réduisent la mémoire à une simple exactitude en fin de tâche et transforment les observations visuelles en légendes, ce qui nous empêche de localiser les défaillances au niveau de l'écriture, de la maintenance, du rappel ou de l'utilisation. L'essor de systèmes d'orchestration d'agents qui génèrent leur propre mémoire accentue cette lacune, car nous ne disposons d'aucun moyen méthodique pour comparer les pipelines conçus manuellement avec les alternatives auto-gérées. Pour combler ces lacunes, nous formulons la mémoire d'agent multimodal comme une boucle d'interaction action-monde avec un cycle de vie observable en quatre étapes, et nous l'instancions dans WorldMemArena : 400 tâches multimodales multi-sessions couvrant l'évolution permanente (états personnels et de tâche en évolution) et l'exécution agentique (mémoire issue d'observations, d'actions et de retours réels), annotées avec des points de mémoire de référence, des mises à jour, des distracteurs et des chaînes de preuves pour un diagnostic par étape. Cela permet la première comparaison directe entre agents à contexte long, agents à conception manuelle (RAG et systèmes de mémoire externes) et agents mémoire basés sur des harnais. Les résultats montrent que : (1) une meilleure écriture et un meilleur stockage en mémoire ne garantissent pas de meilleures performances ; (2) la mémoire multimodale peine encore à utiliser pleinement les preuves visuelles ; (3) les systèmes sont instables d'un domaine à l'autre et se dégradent sur des trajectoires agentiques réalistes ; (4) la mémoire par harnais est plus flexible mais reste coûteuse et moins fiable.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.