MEMTRACK: Valutazione della Memoria a Lungo Termine e del Monitoraggio dello Stato in Ambienti Dinamici Multi-Piattaforma per Agenti
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
Autori: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
Abstract
I lavori recenti sul benchmarking di contesto e memoria si sono principalmente concentrati su istanze conversazionali, ma la necessità di valutare la memoria in ambienti aziendali dinamici è cruciale per la sua applicazione efficace. Introduciamo MEMTRACK, un benchmark progettato per valutare la memoria a lungo termine e il tracciamento dello stato in ambienti multi-piattaforma per agenti. MEMTRACK modella flussi di lavoro organizzativi realistici integrando eventi asincroni su più piattaforme di comunicazione e produttività come Slack, Linear e Git. Ogni istanza del benchmark fornisce una sequenza temporale cronologicamente intervallata tra piattaforme, con informazioni rumorose, conflittuali, cross-referenziate, nonché potenziale comprensione ed esplorazione di codebase e file system. Di conseguenza, il nostro benchmark testa capacità di memoria come acquisizione, selezione e risoluzione dei conflitti. Curiamo il dataset MEMTRACK attraverso sia una progettazione manuale guidata da esperti che una sintesi scalabile basata su agenti, generando scenari ecologicamente validi radicati nei processi di sviluppo software del mondo reale. Introduciamo metriche pertinenti per Correttezza, Efficienza e Ridondanza che catturano l'efficacia dei meccanismi di memoria oltre le semplici prestazioni di QA. Esperimenti su LLM SoTA e backend di memoria rivelano sfide nell'utilizzo della memoria su orizzonti lunghi, nella gestione delle dipendenze cross-piattaforma e nella risoluzione delle contraddizioni. In particolare, il modello GPT-5 con le migliori prestazioni raggiunge solo un punteggio di Correttezza del 60% su MEMTRACK. Questo lavoro fornisce un framework estensibile per avanzare la ricerca di valutazione per agenti potenziati dalla memoria, oltre il focus esistente sulle configurazioni conversazionali, e prepara il terreno per il benchmarking della memoria multi-agente e multi-piattaforma in contesti organizzativi complessi.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings