WorldMemArena: Evaluación de la Memoria de Agentes Multimodales mediante la Interacción Acción-Mundo

Resumen

Los modelos de lenguaje grandes multimodales se despliegan cada vez más como agentes de largo horizonte, donde la memoria debe hacer más que recordar: debe rastrear un mundo en evolución, revisar lo que ha quedado obsoleto y sacar a la superficie la evidencia adecuada en el momento de la decisión. Los puntos de referencia existentes miden el recuerdo sobre diálogos estáticos, comprimen la memoria en una única exactitud al final de la tarea y reducen las observaciones visuales a descripciones textuales, impidiéndonos localizar fallos en la escritura, el mantenimiento, la recuperación o el uso. El auge de los arneses de agente que gestionan su propia memoria agudiza esta brecha, ya que no contamos con una forma fundamentada de comparar tuberías diseñadas manualmente con alternativas autogestionadas. Para cerrar estas brechas, formulamos la memoria de agente multimodal como un Bucle de Interacción Acción-Mundo con un ciclo de vida observable de cuatro etapas, y lo instanciamos en WorldMemArena: 400 tareas multimodales de múltiples sesiones que abarcan Evolución Perpetua (estados personales y de tarea en evolución) y Ejecución Agencial (memoria a partir de observaciones, acciones y retroalimentación reales), anotadas con puntos de memoria de referencia, actualizaciones, distractores y cadenas de evidencia para un diagnóstico a nivel de etapa. Esto permite la primera comparación directa entre agentes de memoria basados en contexto largo, diseñados manualmente (sistemas RAG y de memoria externa) y basados en arneses. Los resultados muestran que: (1) una mejor escritura y almacenamiento de memoria no garantizan un mejor rendimiento; (2) la memoria multimodal aún tiene dificultades para utilizar plenamente la evidencia visual; (3) los sistemas son inestables entre dominios y se degradan en trayectorias agenciales realistas; y (4) la memoria de arnés es más flexible pero sigue siendo costosa y menos fiable.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.