MEMTRACK: Evaluación de la Memoria a Largo Plazo y el Seguimiento de Estado en Entornos Dinámicos de Agentes Multiplataforma

Resumen

Los trabajos recientes sobre evaluación de contexto y memoria se han centrado principalmente en instancias conversacionales, pero la necesidad de evaluar la memoria en entornos empresariales dinámicos es crucial para su aplicación efectiva. Presentamos MEMTRACK, un benchmark diseñado para evaluar la memoria a largo plazo y el seguimiento de estados en entornos de agentes multiplataforma. MEMTRACK modela flujos de trabajo organizacionales realistas al integrar eventos asíncronos en múltiples plataformas de comunicación y productividad como Slack, Linear y Git. Cada instancia del benchmark proporciona una línea de tiempo intercalada cronológicamente entre plataformas, con información ruidosa, conflictiva y referenciada cruzadamente, así como la posible comprensión y exploración de bases de código o sistemas de archivos. En consecuencia, nuestro benchmark evalúa capacidades de memoria como adquisición, selección y resolución de conflictos. Curatoriamos el conjunto de datos MEMTRACK mediante un diseño manual basado en expertos y una síntesis escalable basada en agentes, generando escenarios ecológicamente válidos fundamentados en procesos reales de desarrollo de software. Introducimos métricas pertinentes para Correctitud, Eficiencia y Redundancia que capturan la efectividad de los mecanismos de memoria más allá del simple rendimiento en preguntas y respuestas. Los experimentos con los últimos modelos de lenguaje (LLMs) y backends de memoria revelan desafíos en la utilización de la memoria a lo largo de horizontes prolongados, el manejo de dependencias multiplataforma y la resolución de contradicciones. Notablemente, el modelo GPT-5, el de mejor rendimiento, solo alcanza un 60\% de puntuación en Correctitud en MEMTRACK. Este trabajo proporciona un marco extensible para avanzar en la investigación de evaluación de agentes aumentados con memoria, más allá del enfoque actual en configuraciones conversacionales, y sienta las bases para la evaluación de memoria en entornos organizacionales complejos con múltiples agentes y plataformas.

English

Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings

MEMTRACK: Evaluación de la Memoria a Largo Plazo y el Seguimiento de Estado en Entornos Dinámicos de Agentes Multiplataforma

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

Resumen

Support