ChatPaper.aiChatPaper

MEMTRACK: Avaliação de Memória de Longo Prazo e Rastreamento de Estado em Ambientes Dinâmicos de Agentes Multiplataforma

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

October 1, 2025
Autores: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI

Resumo

Trabalhos recentes sobre avaliação de contexto e memória têm se concentrado principalmente em instâncias conversacionais, mas a necessidade de avaliar a memória em ambientes empresariais dinâmicos é crucial para sua aplicação eficaz. Apresentamos o MEMTRACK, um benchmark projetado para avaliar a memória de longo prazo e o rastreamento de estado em ambientes de agentes multiplataforma. O MEMTRACK modela fluxos de trabalho organizacionais realistas, integrando eventos assíncronos em várias plataformas de comunicação e produtividade, como Slack, Linear e Git. Cada instância do benchmark fornece uma linha do tempo cronologicamente intercalada entre plataformas, com informações ruidosas, conflitantes e interreferenciadas, além de possíveis compreensões e explorações de bases de código/sistemas de arquivos. Consequentemente, nosso benchmark testa capacidades de memória, como aquisição, seleção e resolução de conflitos. Curamos o conjunto de dados do MEMTRACK por meio de design manual orientado por especialistas e síntese escalável baseada em agentes, gerando cenários ecologicamente válidos fundamentados em processos reais de desenvolvimento de software. Introduzimos métricas pertinentes para Correção, Eficiência e Redundância, que capturam a eficácia dos mecanismos de memória além do desempenho simples em perguntas e respostas. Experimentos com LLMs state-of-the-art (SoTA) e backends de memória revelam desafios na utilização da memória em horizontes longos, no tratamento de dependências entre plataformas e na resolução de contradições. Notavelmente, o modelo GPT-5, de melhor desempenho, alcança apenas uma pontuação de 60% em Correção no MEMTRACK. Este trabalho fornece uma estrutura extensível para avançar a pesquisa de avaliação de agentes aumentados por memória, além do foco atual em configurações conversacionais, e prepara o terreno para a avaliação de memória em ambientes organizacionais complexos, envolvendo múltiplos agentes e múltiplas plataformas.
English
Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
PDF12October 8, 2025