LongMemEval-V2: Оценка долговременной памяти агента в отношении опытных коллег
LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues
May 12, 2026
Авторы: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang
cs.AI
Аннотация
Долговременная память имеет критическое значение для агентов, работающих в специализированных веб-средах, где успех зависит от запоминания возможностей интерфейса, динамики состояний, рабочих процессов и повторяющихся сценариев отказов. Однако существующие бенчмарки памяти для агентов в основном фокусируются на истории пользователей, коротких трассах или успешности последующих задач, оставляя открытым вопрос о том, как напрямую оценить, эффективно ли системы памяти усваивают специфический для среды опыт. Для восполнения этого пробела мы представляем LongMemEval-V2 (LME-V2) — бенчмарк для оценки того, способны ли системы памяти помочь агентам приобрести опыт, необходимый для того, чтобы стать компетентными коллегами в настраиваемых средах. LME-V2 содержит 451 вручную составленный вопрос, охватывающий пять ключевых способностей памяти для веб-агентов: запоминание статического состояния, отслеживание динамического состояния, знание рабочих процессов, «подводные камни» среды и осведомленность о предпосылках. К вопросам прилагаются исторические траектории, содержащие до 500 траекторий и 115 млн токенов. Мы используем формулировку сбора контекста: системы памяти обрабатывают исторические траектории и возвращают компактные свидетельства для последующего ответа на вопросы. Мы предлагаем набор из двух методов памяти: AgentRunbook-R, эффективную память на основе RAG с пулами знаний для необработанных наблюдений состояний, событий и заметок по стратегии, и AgentRunbook-C, который хранит траектории в виде файлов и вызывает агента-программиста для сбора свидетельств в дополненной песочнице. Эксперименты показывают, что AgentRunbook-C достигает наилучшей производительности со средней точностью 72,5%, превосходя самый сильный базовый метод RAG (48,5%) и стандартного агента-программиста (69,3%). Несмотря на значительный прирост производительности, методы на основе агента-программиста имеют высокие задержки. Хотя AgentRunbook-C продвигает границу Парето точности и задержки, остается значительный простор для улучшений. В совокупности эти результаты устанавливают LME-V2 как сложный испытательный стенд для разработки систем долговременной памяти для опыта работы в среде.
English
Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.