MEMTRACK: Avaliação de Memória de Longo Prazo e Rastreamento de Estado em Ambientes Dinâmicos de Agentes Multiplataforma
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
Autores: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
Resumo
Trabalhos recentes sobre avaliação de contexto e memória têm se concentrado principalmente em instâncias conversacionais, mas a necessidade de avaliar a memória em ambientes empresariais dinâmicos é crucial para sua aplicação eficaz. Apresentamos o MEMTRACK, um benchmark projetado para avaliar a memória de longo prazo e o rastreamento de estado em ambientes de agentes multiplataforma. O MEMTRACK modela fluxos de trabalho organizacionais realistas, integrando eventos assíncronos em várias plataformas de comunicação e produtividade, como Slack, Linear e Git. Cada instância do benchmark fornece uma linha do tempo cronologicamente intercalada entre plataformas, com informações ruidosas, conflitantes e interreferenciadas, além de possíveis compreensões e explorações de bases de código/sistemas de arquivos. Consequentemente, nosso benchmark testa capacidades de memória, como aquisição, seleção e resolução de conflitos. Curamos o conjunto de dados do MEMTRACK por meio de design manual orientado por especialistas e síntese escalável baseada em agentes, gerando cenários ecologicamente válidos fundamentados em processos reais de desenvolvimento de software. Introduzimos métricas pertinentes para Correção, Eficiência e Redundância, que capturam a eficácia dos mecanismos de memória além do desempenho simples em perguntas e respostas. Experimentos com LLMs state-of-the-art (SoTA) e backends de memória revelam desafios na utilização da memória em horizontes longos, no tratamento de dependências entre plataformas e na resolução de contradições. Notavelmente, o modelo GPT-5, de melhor desempenho, alcança apenas uma pontuação de 60% em Correção no MEMTRACK. Este trabalho fornece uma estrutura extensível para avançar a pesquisa de avaliação de agentes aumentados por memória, além do foco atual em configurações conversacionais, e prepara o terreno para a avaliação de memória em ambientes organizacionais complexos, envolvendo múltiplos agentes e múltiplas plataformas.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings