ChatPaper.aiChatPaper

MEMTRACK: Bewertung von Langzeitgedächtnis und Zustandsverfolgung in Multi-Plattform-Dynamischen-Agenten-Umgebungen

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

October 1, 2025
papers.authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI

papers.abstract

Aktuelle Arbeiten zur Kontext- und Gedächtnisbewertung haben sich hauptsächlich auf konversationelle Szenarien konzentriert, doch die Notwendigkeit, das Gedächtnis in dynamischen Unternehmensumgebungen zu evaluieren, ist entscheidend für seine effektive Anwendung. Wir stellen MEMTRACK vor, einen Benchmark, der entwickelt wurde, um Langzeitgedächtnis und Zustandsverfolgung in Multi-Plattform-Agenten-Umgebungen zu bewerten. MEMTRACK modelliert realistische organisatorische Arbeitsabläufe, indem es asynchrone Ereignisse über mehrere Kommunikations- und Produktivitätsplattformen wie Slack, Linear und Git integriert. Jede Benchmark-Instanz bietet eine chronologisch plattformübergreifende Zeitleiste mit verrauschten, widersprüchlichen, querverweisenden Informationen sowie potenzieller Codebasis-/Dateisystem-Verständnis- und Exploration. Folglich testet unser Benchmark Gedächtnisfähigkeiten wie Erfassung, Selektion und Konfliktlösung. Wir kuratieren den MEMTRACK-Datensatz sowohl durch manuell expertengeleitetes Design als auch durch skalierbare agentenbasierte Synthese, wodurch ökologisch valide Szenarien entstehen, die auf realen Softwareentwicklungsprozessen basieren. Wir führen relevante Metriken für Korrektheit, Effizienz und Redundanz ein, die die Effektivität von Gedächtnismechanismen über einfache QA-Leistung hinaus erfassen. Experimente mit State-of-the-Art LLMs und Gedächtnis-Backends offenbaren Herausforderungen bei der Nutzung von Gedächtnis über lange Zeiträume, der Handhabung plattformübergreifender Abhängigkeiten und der Auflösung von Widersprüchen. Bemerkenswerterweise erreicht das beste GPT-5-Modell nur eine Korrektheitsbewertung von 60 % auf MEMTRACK. Diese Arbeit bietet einen erweiterbaren Rahmen für die Weiterentwicklung der Evaluationsforschung für gedächtnisgestützte Agenten, über den bestehenden Fokus auf konversationelle Setups hinaus, und bereitet den Weg für Multi-Agenten-, Multi-Plattform-Gedächtnisbenchmarking in komplexen organisatorischen Umgebungen.
English
Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
PDF12October 8, 2025