ChatPaper.aiChatPaper

MEMTRACK : Évaluation de la mémoire à long terme et du suivi d'état dans des environnements dynamiques d'agents multi-plateformes

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

October 1, 2025
papers.authors: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI

papers.abstract

Les travaux récents sur l'évaluation du contexte et de la mémoire se sont principalement concentrés sur des instances conversationnelles, mais la nécessité d'évaluer la mémoire dans des environnements d'entreprise dynamiques est cruciale pour son application efficace. Nous présentons MEMTRACK, un benchmark conçu pour évaluer la mémoire à long terme et le suivi d'état dans des environnements d'agents multi-plateformes. MEMTRACK modélise des workflows organisationnels réalistes en intégrant des événements asynchrones à travers plusieurs plateformes de communication et de productivité telles que Slack, Linear et Git. Chaque instance du benchmark fournit une chronologie entrelacée entre les plateformes, avec des informations bruyantes, conflictuelles, croisées ainsi qu'une compréhension et exploration potentielles du codebase/système de fichiers. Par conséquent, notre benchmark teste des capacités de mémoire telles que l'acquisition, la sélection et la résolution de conflits. Nous constituons le jeu de données MEMTRACK à la fois par une conception manuelle pilotée par des experts et par une synthèse basée sur des agents évolutifs, générant des scénarios écologiquement valides ancrés dans les processus réels de développement logiciel. Nous introduisons des métriques pertinentes pour la Correctitude, l'Efficacité et la Redondance qui capturent l'efficacité des mécanismes de mémoire au-delà de la simple performance en question-réponse. Les expériences menées sur les modèles de langage de pointe (SoTA LLMs) et les backends de mémoire révèlent des défis dans l'utilisation de la mémoire sur de longues périodes, la gestion des dépendances inter-plateformes et la résolution des contradictions. Notamment, le modèle GPT-5 le plus performant n'atteint qu'un score de Correctitude de 60\% sur MEMTRACK. Ce travail fournit un cadre extensible pour faire progresser la recherche sur l'évaluation des agents augmentés par la mémoire, au-delà de l'accent actuel sur les configurations conversationnelles, et pose les bases pour l'évaluation de la mémoire multi-agent et multi-plateforme dans des environnements organisationnels complexes.
English
Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
PDF12October 8, 2025