MEMTRACK: Evaluación de la Memoria a Largo Plazo y el Seguimiento de Estado en Entornos Dinámicos de Agentes Multiplataforma
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
Autores: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
Resumen
Los trabajos recientes sobre evaluación de contexto y memoria se han centrado principalmente en instancias conversacionales, pero la necesidad de evaluar la memoria en entornos empresariales dinámicos es crucial para su aplicación efectiva. Presentamos MEMTRACK, un benchmark diseñado para evaluar la memoria a largo plazo y el seguimiento de estados en entornos de agentes multiplataforma. MEMTRACK modela flujos de trabajo organizacionales realistas al integrar eventos asíncronos en múltiples plataformas de comunicación y productividad como Slack, Linear y Git. Cada instancia del benchmark proporciona una línea de tiempo intercalada cronológicamente entre plataformas, con información ruidosa, conflictiva y referenciada cruzadamente, así como la posible comprensión y exploración de bases de código o sistemas de archivos. En consecuencia, nuestro benchmark evalúa capacidades de memoria como adquisición, selección y resolución de conflictos. Curatoriamos el conjunto de datos MEMTRACK mediante un diseño manual basado en expertos y una síntesis escalable basada en agentes, generando escenarios ecológicamente válidos fundamentados en procesos reales de desarrollo de software. Introducimos métricas pertinentes para Correctitud, Eficiencia y Redundancia que capturan la efectividad de los mecanismos de memoria más allá del simple rendimiento en preguntas y respuestas. Los experimentos con los últimos modelos de lenguaje (LLMs) y backends de memoria revelan desafíos en la utilización de la memoria a lo largo de horizontes prolongados, el manejo de dependencias multiplataforma y la resolución de contradicciones. Notablemente, el modelo GPT-5, el de mejor rendimiento, solo alcanza un 60\% de puntuación en Correctitud en MEMTRACK. Este trabajo proporciona un marco extensible para avanzar en la investigación de evaluación de agentes aumentados con memoria, más allá del enfoque actual en configuraciones conversacionales, y sienta las bases para la evaluación de memoria en entornos organizacionales complejos con múltiples agentes y plataformas.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings