LongMemEval-V2: Bewertung des Langzeitgedächtnisses von Agenten im Umgang mit erfahrenen Kollegen

Zusammenfassung

Langzeitgedächtnis ist für Agenten in spezialisierten Webumgebungen entscheidend, wo der Erfolg davon abhängt, sich an Schnittstellenaffordanzen, Zustandsdynamiken, Arbeitsabläufe und wiederkehrende Fehlermodi zu erinnern. Allerdings konzentrieren sich bestehende Gedächtnis-Benchmarks für Agenten meist auf Benutzerhistorien, kurze Spuren oder den Erfolg nachgelagerter Aufgaben, wobei offen bleibt, wie direkt evaluiert werden kann, ob Gedächtnissysteme umgebungsspezifische Erfahrungen effektiv internalisieren. Um diese Lücke zu schließen, führen wir LongMemEval-V2 (LME-V2) ein, einen Benchmark zur Evaluierung, ob Gedächtnissysteme Agenten dabei helfen können, die Erfahrung zu erwerben, die nötig ist, um in maßgeschneiderten Umgebungen zu sachkundigen Kollegen zu werden. LME-V2 enthält 451 manuell kuratierte Fragen, die fünf zentrale Gedächtnisfähigkeiten für Web-Agenten abdecken: statische Zustandserinnerung, dynamische Zustandsverfolgung, Arbeitsablaufwissen, Umgebungsfallen und Prämissenbewusstsein. Die Fragen sind mit Verlaufs-Trajektorien gepaart, die bis zu 500 Trajektorien und 115M Token enthalten. Wir verwenden eine Formulierung der Kontextsammlung: Gedächtnissysteme konsumieren Verlaufs-Trajektorien und geben kompakte Beweise für die nachgelagerte Beantwortung von Fragen zurück. Wir schlagen eine Suite von zwei Gedächtnismethoden vor: AgentRunbook-R, ein effizientes RAG-basiertes Gedächtnis mit Wissenspools für rohe Zustandsbeobachtungen, Ereignisse und Strategienotizen, und AgentRunbook-C, das Trajektorien als Dateien speichert und einen Code-Agenten aufruft, um in einer erweiterten Sandbox Beweise zu sammeln. Experimente zeigen, dass AgentRunbook-C mit einer durchschnittlichen Genauigkeit von 72,5 % die beste Leistung erzielt und damit die stärkste RAG-Baseline (48,5 %) und die Standard-Code-Agenten-Baseline (69,3 %) übertrifft. Trotz der starken Leistungssteigerungen haben codeagentenbasierte Methoden hohe Latenzkosten. Während AgentRunbook-C die Pareto-Grenze von Genauigkeit und Latenz verschiebt, besteht weiterhin erheblicher Verbesserungsspielraum. Zusammen etablieren diese Ergebnisse LME-V2 als anspruchsvolles Testfeld für die Entwicklung von Langzeitgedächtnissystemen für Umgebungserfahrungen.

English

Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.

LongMemEval-V2: Bewertung des Langzeitgedächtnisses von Agenten im Umgang mit erfahrenen Kollegen

LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

Zusammenfassung

Support