MEMTRACK: Оценка долговременной памяти и отслеживания состояния в динамических средах мультиплатформенных агентов
MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments
October 1, 2025
Авторы: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI
Аннотация
Недавние исследования в области оценки контекста и памяти в основном сосредоточены на диалоговых сценариях, однако необходимость оценки памяти в динамичных корпоративных средах имеет решающее значение для её эффективного применения. Мы представляем MEMTRACK — эталонный тест, разработанный для оценки долговременной памяти и отслеживания состояния в многоплатформенных средах агентов. MEMTRACK моделирует реалистичные организационные рабочие процессы, интегрируя асинхронные события на нескольких платформах коммуникации и продуктивности, таких как Slack, Linear и Git. Каждый тестовый сценарий предоставляет хронологически переплетённую временную шкалу с зашумлённой, противоречивой, перекрестно ссылающейся информацией, а также потенциальным пониманием и исследованием кодовой базы/файловой системы. Таким образом, наш тест проверяет способности памяти, такие как приобретение, выбор и разрешение конфликтов. Мы создали набор данных MEMTRACK с помощью как ручного проектирования экспертами, так и масштабируемого синтеза на основе агентов, генерируя экологически валидные сценарии, основанные на реальных процессах разработки программного обеспечения. Мы вводим соответствующие метрики для оценки корректности, эффективности и избыточности, которые отражают эффективность механизмов памяти за пределами простой производительности в вопросах и ответах. Эксперименты с современными крупными языковыми моделями (LLM) и системами памяти выявили трудности в использовании памяти на длительных временных горизонтах, обработке зависимостей между платформами и разрешении противоречий. Примечательно, что лучшая модель GPT-5 достигает лишь 60% оценки корректности на MEMTRACK. Эта работа предоставляет расширяемую основу для продвижения исследований в области оценки агентов с расширенной памятью, выходя за рамки существующего акцента на диалоговых сценариях, и задаёт основу для тестирования памяти в многоплатформенных и многозадачных средах в сложных организационных условиях.
English
Recent works on context and memory benchmarking have primarily focused on
conversational instances but the need for evaluating memory in dynamic
enterprise environments is crucial for its effective application. We introduce
MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking
in multi-platform agent environments. MEMTRACK models realistic organizational
workflows by integrating asynchronous events across multiple communication and
productivity platforms such as Slack, Linear and Git. Each benchmark instance
provides a chronologically platform-interleaved timeline, with noisy,
conflicting, cross-referring information as well as potential
codebase/file-system comprehension and exploration. Consequently, our benchmark
tests memory capabilities such as acquistion, selection and conflict
resolution. We curate the MEMTRACK dataset through both manual expert driven
design and scalable agent based synthesis, generating ecologically valid
scenarios grounded in real world software development processes. We introduce
pertinent metrics for Correctness, Efficiency, and Redundancy that capture the
effectiveness of memory mechanisms beyond simple QA performance. Experiments
across SoTA LLMs and memory backends reveal challenges in utilizing memory
across long horizons, handling cross-platform dependencies, and resolving
contradictions. Notably, the best performing GPT-5 model only achieves a 60\%
Correctness score on MEMTRACK. This work provides an extensible framework for
advancing evaluation research for memory-augmented agents, beyond existing
focus on conversational setups, and sets the stage for multi-agent,
multi-platform memory benchmarking in complex organizational settings