LongMemEval-V2 : Évaluation de la mémoire à long terme d'agent envers des collègues expérimentés

Résumé

La mémoire à long terme est cruciale pour les agents dans des environnements web spécialisés, où le succès dépend de la capacité à se souvenir des affordances d'interface, des dynamiques d'état, des flux de travail et des modes d'échec récurrents. Cependant, les benchmarks existants pour la mémoire des agents se concentrent principalement sur les historiques utilisateur, les traces courtes ou le succès des tâches en aval, laissant en suspens la question de savoir comment évaluer directement si les systèmes de mémoire internalisent efficacement l'expérience spécifique à l'environnement. Pour combler cette lacune, nous introduisons LongMemEval-V2 (LME-V2), un benchmark conçu pour évaluer si les systèmes de mémoire peuvent aider les agents à acquérir l'expérience nécessaire pour devenir des collègues compétents dans des environnements personnalisés. LME-V2 contient 451 questions élaborées manuellement, couvrant cinq capacités de mémoire fondamentales pour les agents web : le rappel d'état statique, le suivi d'état dynamique, la connaissance des flux de travail, les pièges d'environnement et la conscience des prémisses. Les questions sont associées à des trajectoires historiques comprenant jusqu'à 500 trajectoires et 115 millions de tokens. Nous utilisons une formulation de collecte de contexte : les systèmes de mémoire consomment les trajectoires historiques et renvoient des preuves compactes pour répondre aux questions en aval. Nous proposons une série de deux méthodes de mémoire : AgentRunbook-R, une méthode de mémoire RAG efficace reposant sur des bassins de connaissances pour les observations d'état brutes, les événements et les notes stratégiques, et AgentRunbook-C, qui stocke les trajectoires sous forme de fichiers et invoque un agent codeur pour rassembler des preuves dans un bac à sable augmenté. Les expériences montrent qu'AgentRunbook-C atteint les meilleures performances avec une précision moyenne de 72,5 %, surpassant la baseline RAG la plus performante (48,5 %) et la baseline d'agent codeur standard (69,3 %). Malgré ces gains de performance significatifs, les méthodes basées sur des agents codeurs présentent des coûts de latence élevés. Bien qu'AgentRunbook-C fasse progresser la frontière de Pareto précision-latence, il reste une marge d'amélioration substantielle. Dans l'ensemble, ces résultats établissent LME-V2 comme un banc d'essai exigeant pour le développement de systèmes de mémoire à long terme dédiés à l'expérience environnementale.

English

Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.

LongMemEval-V2 : Évaluation de la mémoire à long terme d'agent envers des collègues expérimentés

LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

Résumé

Support