MEMTRACK : Évaluation de la mémoire à long terme et du suivi d'état dans des environnements dynamiques d'agents multi-plateformes
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
papers.authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
papers.abstract
Les travaux récents sur l'évaluation du contexte et de la mémoire se sont principalement concentrés sur des instances conversationnelles, mais la nécessité d'évaluer la mémoire dans des environnements d'entreprise dynamiques est cruciale pour son application efficace. Nous présentons MEMTRACK, un benchmark conçu pour évaluer la mémoire à long terme et le suivi d'état dans des environnements d'agents multi-plateformes. MEMTRACK modélise des workflows organisationnels réalistes en intégrant des événements asynchrones à travers plusieurs plateformes de communication et de productivité telles que Slack, Linear et Git. Chaque instance du benchmark fournit une chronologie entrelacée entre les plateformes, avec des informations bruyantes, conflictuelles, croisées ainsi qu'une compréhension et exploration potentielles du codebase/système de fichiers. Par conséquent, notre benchmark teste des capacités de mémoire telles que l'acquisition, la sélection et la résolution de conflits. Nous constituons le jeu de données MEMTRACK à la fois par une conception manuelle pilotée par des experts et par une synthèse basée sur des agents évolutifs, générant des scénarios écologiquement valides ancrés dans les processus réels de développement logiciel. Nous introduisons des métriques pertinentes pour la Correctitude, l'Efficacité et la Redondance qui capturent l'efficacité des mécanismes de mémoire au-delà de la simple performance en question-réponse. Les expériences menées sur les modèles de langage de pointe (SoTA LLMs) et les backends de mémoire révèlent des défis dans l'utilisation de la mémoire sur de longues périodes, la gestion des dépendances inter-plateformes et la résolution des contradictions. Notamment, le modèle GPT-5 le plus performant n'atteint qu'un score de Correctitude de 60\% sur MEMTRACK. Ce travail fournit un cadre extensible pour faire progresser la recherche sur l'évaluation des agents augmentés par la mémoire, au-delà de l'accent actuel sur les configurations conversationnelles, et pose les bases pour l'évaluation de la mémoire multi-agent et multi-plateforme dans des environnements organisationnels complexes.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings