LongMemEval-V2: Evaluación de la memoria a largo plazo de agentes en relación con colegas experimentados
LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues
May 12, 2026
Autores: Di Wu, Zixiang Ji, Asmi Kawatkar, Bryan Kwan, Jia-Chen Gu, Nanyun Peng, Kai-Wei Chang
cs.AI
Resumen
La memoria a largo plazo es crucial para los agentes en entornos web especializados, donde el éxito depende de recordar las affordances de la interfaz, las dinámicas de estado, los flujos de trabajo y los modos de fallo recurrentes. Sin embargo, los puntos de referencia existentes de memoria para agentes se centran principalmente en historiales de usuario, trazas cortas o el éxito en tareas posteriores, dejando abierta la cuestión de cómo evaluar directamente si los sistemas de memoria internalizan eficazmente la experiencia específica del entorno. Para abordar esta brecha, presentamos LongMemEval-V2 (LME-V2), un punto de referencia para evaluar si los sistemas de memoria pueden ayudar a los agentes a adquirir la experiencia necesaria para convertirse en colegas conocedores en entornos personalizados. LME-V2 contiene 451 preguntas curadas manualmente que abarcan cinco capacidades de memoria fundamentales para agentes web: recuerdo de estado estático, seguimiento de estado dinámico, conocimiento de flujo de trabajo, trampas del entorno y conciencia de premisas. Las preguntas se emparejan con trayectorias históricas que contienen hasta 500 trayectorias y 115 millones de tokens. Usamos una formulación de recopilación de contexto: los sistemas de memoria consumen trayectorias históricas y devuelven evidencia compacta para responder preguntas posteriores. Proponemos un conjunto de dos métodos de memoria: AgentRunbook-R, una memoria eficiente basada en RAG con grupos de conocimiento para observaciones de estado brutas, eventos y notas de estrategia, y AgentRunbook-C, que almacena trayectorias como archivos e invoca a un agente de codificación para recopilar evidencia en un sandbox aumentado. Los experimentos muestran que AgentRunbook-C logra el mejor rendimiento con una precisión promedio del 72,5 %, superando la línea base de RAG más fuerte (48,5 %) y la línea base de agente de codificación estándar (69,3 %). A pesar de las fuertes ganancias de rendimiento, los métodos basados en agentes de codificación tienen altos costos de latencia. Si bien AgentRunbook-C avanza la frontera de Pareto entre precisión y latencia, aún queda un margen sustancial de mejora. En conjunto, estos resultados establecen a LME-V2 como un banco de pruebas desafiante para desarrollar sistemas de memoria a largo plazo para la experiencia en entornos.
English
Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.