ChatPaper.aiChatPaper

MEMTRACK: Оценка долговременной памяти и отслеживания состояния в динамических средах мультиплатформенных агентов

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

October 1, 2025
Авторы: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI

Аннотация

Недавние исследования в области оценки контекста и памяти в основном сосредоточены на диалоговых сценариях, однако необходимость оценки памяти в динамичных корпоративных средах имеет решающее значение для её эффективного применения. Мы представляем MEMTRACK — эталонный тест, разработанный для оценки долговременной памяти и отслеживания состояния в многоплатформенных средах агентов. MEMTRACK моделирует реалистичные организационные рабочие процессы, интегрируя асинхронные события на нескольких платформах коммуникации и продуктивности, таких как Slack, Linear и Git. Каждый тестовый сценарий предоставляет хронологически переплетённую временную шкалу с зашумлённой, противоречивой, перекрестно ссылающейся информацией, а также потенциальным пониманием и исследованием кодовой базы/файловой системы. Таким образом, наш тест проверяет способности памяти, такие как приобретение, выбор и разрешение конфликтов. Мы создали набор данных MEMTRACK с помощью как ручного проектирования экспертами, так и масштабируемого синтеза на основе агентов, генерируя экологически валидные сценарии, основанные на реальных процессах разработки программного обеспечения. Мы вводим соответствующие метрики для оценки корректности, эффективности и избыточности, которые отражают эффективность механизмов памяти за пределами простой производительности в вопросах и ответах. Эксперименты с современными крупными языковыми моделями (LLM) и системами памяти выявили трудности в использовании памяти на длительных временных горизонтах, обработке зависимостей между платформами и разрешении противоречий. Примечательно, что лучшая модель GPT-5 достигает лишь 60% оценки корректности на MEMTRACK. Эта работа предоставляет расширяемую основу для продвижения исследований в области оценки агентов с расширенной памятью, выходя за рамки существующего акцента на диалоговых сценариях, и задаёт основу для тестирования памяти в многоплатформенных и многозадачных средах в сложных организационных условиях.
English
Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
PDF12October 8, 2025