WorldMemArena: Оценка памяти мультимодального агента через взаимодействие действия и мира

Аннотация

Мультимодальные большие языковые модели все чаще развертываются в качестве долгосрочных агентов, где память должна выполнять не только функцию припоминания: она должна отслеживать изменяющийся мир, пересматривать устаревшую информацию и выявлять нужные доказательства в момент принятия решений. Существующие бенчмарки измеряют припоминание в статическом диалоге, сводят память к единой метрике точности на основе конечного результата задачи и редуцируют визуальные наблюдения до подписей, что не позволяет локализовать сбои на этапах записи, поддержания, поиска или использования. Рост числа агентских обвязок (harnesses), которые сами управляют своей памятью, усугубляет этот разрыв, поскольку у нас нет принципиального способа сравнивать системы, спроектированные вручную, с альтернативами, управляющими памятью автономно. Чтобы устранить эти пробелы, мы формулируем мультимодальную память агента как цикл взаимодействия «Действие–Мир» с наблюдаемым четырехстадийным жизненным циклом и реализуем его в WorldMemArena: 400 мультисессионных мультимодальных задач, охватывающих пожизненную эволюцию (эволюционирующие личные и рабочие состояния) и агентское выполнение (память на основе реальных наблюдений, действий и обратной связи), с аннотированными ключевыми точками памяти, обновлениями, дистракторами и цепочками доказательств для постадийной диагностики. Это позволяет впервые провести прямое сравнение агентов с длинным контекстом, спроектированных вручную (RAG и внешние системы памяти) и основанных на обвязках. Результаты показывают, что: (1) лучшее запоминание и хранение памяти не гарантирует лучшую производительность; (2) мультимодальная память по-прежнему плохо использует визуальные доказательства; (3) системы нестабильны в разных доменах и деградируют на реалистичных агентских траекториях; (4) управляемая обвязкой память более гибка, но остается дорогостоящей и менее надежной.

English

Multimodal large language models are increasingly deployed as long-horizon agents, where memory must do more than recall: it must track an evolving world, revise what has gone stale, and surface the right evidence at decision time. Existing benchmarks measure recall over static dialogue, collapse memory into a single end-of-task accuracy, and reduce visual observations to captions, leaving us unable to localize failures to writing, maintenance, retrieval, or use. The rise of agent harnesses that author their own memory sharpens this gap, since we have no principled way to compare hand-designed pipelines with self-managing alternatives. To close these gaps, we formulate multimodal agent memory as an Action-World Interaction Loop with an observable four-stage lifecycle, and instantiate it in WorldMemArena: 400 multi-session multimodal tasks spanning Lifelong Evolution (evolving personal and task states) and Agentic Execution (memory from real observations, actions, and feedback), annotated with gold memory points, updates, distractors, and evidence chains for stage-level diagnosis. This enables the first head-to-head comparison of long-context, manually designed (RAG and external memory systems), and harness-based memory agents. Results show that: (1) better memory writing and storage do not guarantee better performance; (2) multimodal memory still struggles to fully use visual evidence; (3) systems are unstable across domains and degrade on realistic agentic trajectories; and (4) harness memory is more flexible but remains costly and less reliable.