MEMTRACK: Evaluatie van Langetermijngeheugen en Statustracking in Multiplatform Dynamische Agentomgevingen
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
Auteurs: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
Samenvatting
Recente onderzoeken naar context- en geheugenbenchmarking hebben zich voornamelijk gericht op conversatiegevallen, maar de noodzaak om geheugen te evalueren in dynamische bedrijfsomgevingen is cruciaal voor een effectieve toepassing. Wij introduceren MEMTRACK, een benchmark ontworpen om langetermijngeheugen en staatstracking te evalueren in multi-platform agentomgevingen. MEMTRACK modelleert realistische organisatorische workflows door asynchrone gebeurtenissen te integreren over meerdere communicatie- en productiviteitsplatforms zoals Slack, Linear en Git. Elk benchmarkgeval biedt een chronologisch platform-doordrenkte tijdlijn, met ruis, tegenstrijdige, kruisverwijzende informatie, evenals potentieel begrip en exploratie van codebases/bestandssystemen. Als gevolg test onze benchmark geheugencapaciteiten zoals verwerving, selectie en conflictoplossing. Wij stellen de MEMTRACK-dataset samen door zowel handmatig expertgedreven ontwerp als schaalbare agentgebaseerde synthese, waarbij ecologisch valide scenario's worden gegenereerd die gebaseerd zijn op real-world softwareontwikkelingsprocessen. Wij introduceren relevante metrieken voor Correctheid, Efficiëntie en Redundantie die de effectiviteit van geheugenmechanismen vastleggen die verder gaan dan eenvoudige QA-prestaties. Experimenten met state-of-the-art LLM's en geheugenbackends onthullen uitdagingen bij het gebruik van geheugen over lange tijdsperioden, het omgaan met cross-platform afhankelijkheden en het oplossen van tegenstrijdigheden. Opmerkelijk is dat het best presterende GPT-5-model slechts een Correctheidsscore van 60\% behaalt op MEMTRACK. Dit werk biedt een uitbreidbaar raamwerk voor het bevorderen van evaluatieonderzoek voor geheugenversterkte agents, verder dan de bestaande focus op conversatieopstellingen, en zet de toon voor multi-agent, multi-platform geheugenbenchmarking in complexe organisatorische omgevingen.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings