WorldMemArena: Avaliação da Memória de Agentes Multimodais por Meio da Interação Ação-Mundo

Resumo

Os modelos de linguagem multimodal de grande escala estão cada vez mais sendo implantados como agentes de longo horizonte, nos quais a memória precisa fazer mais do que recordar: deve rastrear um mundo em evolução, revisar o que se tornou obsoleto e trazer à tona as evidências certas no momento da decisão. Os benchmarks existentes medem a recordação sobre diálogos estáticos, colapsam a memória em uma única acurácia ao final da tarefa e reduzem observações visuais a legendas, deixando-nos incapazes de localizar falhas na escrita, manutenção, recuperação ou uso. O surgimento de mecanismos de agente que gerenciam sua própria memória acentua essa lacuna, uma vez que não temos uma maneira fundamentada de comparar pipelines projetados manualmente com alternativas autogerenciáveis. Para preencher essas lacunas, formulamos a memória do agente multimodal como um Loop de Interação Ação-Mundo com um ciclo de vida observável de quatro estágios, e o instanciamos no WorldMemArena: 400 tarefas multimodais de múltiplas sessões que abrangem Evolução Contínua (estados pessoais e de tarefas em evolução) e Execução Agêntica (memória a partir de observações reais, ações e feedback), anotadas com pontos de memória dourados, atualizações, distratores e cadeias de evidências para diagnóstico em nível de estágio. Isso possibilita a primeira comparação direta entre agentes de memória de contexto longo, projetados manualmente (RAG e sistemas de memória externa) e baseados em harness. Os resultados mostram que: (1) melhor escrita e armazenamento de memória não garantem melhor desempenho; (2) a memória multimodal ainda luta para usar plenamente as evidências visuais; (3) os sistemas são instáveis entre domínios e se degradam em trajetórias agênticas realistas; e (4) a memória baseada em harness é mais flexível, mas permanece cara e menos confiável.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.