MEMTRACK: Bewertung von Langzeitgedächtnis und Zustandsverfolgung in Multi-Plattform-Dynamischen-Agenten-Umgebungen
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
papers.authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
papers.abstract
Aktuelle Arbeiten zur Kontext- und Gedächtnisbewertung haben sich hauptsächlich auf
konversationelle Szenarien konzentriert, doch die Notwendigkeit, das Gedächtnis in dynamischen
Unternehmensumgebungen zu evaluieren, ist entscheidend für seine effektive Anwendung. Wir stellen
MEMTRACK vor, einen Benchmark, der entwickelt wurde, um Langzeitgedächtnis und Zustandsverfolgung
in Multi-Plattform-Agenten-Umgebungen zu bewerten. MEMTRACK modelliert realistische organisatorische
Arbeitsabläufe, indem es asynchrone Ereignisse über mehrere Kommunikations- und Produktivitätsplattformen
wie Slack, Linear und Git integriert. Jede Benchmark-Instanz bietet eine chronologisch plattformübergreifende
Zeitleiste mit verrauschten, widersprüchlichen, querverweisenden Informationen sowie potenzieller
Codebasis-/Dateisystem-Verständnis- und Exploration. Folglich testet unser Benchmark Gedächtnisfähigkeiten
wie Erfassung, Selektion und Konfliktlösung. Wir kuratieren den MEMTRACK-Datensatz sowohl durch manuell
expertengeleitetes Design als auch durch skalierbare agentenbasierte Synthese, wodurch ökologisch valide
Szenarien entstehen, die auf realen Softwareentwicklungsprozessen basieren. Wir führen relevante Metriken
für Korrektheit, Effizienz und Redundanz ein, die die Effektivität von Gedächtnismechanismen über einfache
QA-Leistung hinaus erfassen. Experimente mit State-of-the-Art LLMs und Gedächtnis-Backends offenbaren
Herausforderungen bei der Nutzung von Gedächtnis über lange Zeiträume, der Handhabung plattformübergreifender
Abhängigkeiten und der Auflösung von Widersprüchen. Bemerkenswerterweise erreicht das beste GPT-5-Modell
nur eine Korrektheitsbewertung von 60 % auf MEMTRACK. Diese Arbeit bietet einen erweiterbaren Rahmen für
die Weiterentwicklung der Evaluationsforschung für gedächtnisgestützte Agenten, über den bestehenden Fokus
auf konversationelle Setups hinaus, und bereitet den Weg für Multi-Agenten-, Multi-Plattform-Gedächtnisbenchmarking
in komplexen organisatorischen Umgebungen.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings