ChatPaper.aiChatPaper

MEMTRACK: 다중 플랫폼 동적 에이전트 환경에서의 장기 메모리 및 상태 추적 평가

MEMTRACK: Evaluating Long-Term Memory and State Tracking in Multi-Platform Dynamic Agent Environments

October 1, 2025
저자: Darshan Deshpande, Varun Gangal, Hersh Mehta, Anand Kannappan, Rebecca Qian, Peng Wang
cs.AI

초록

최근 컨텍스트 및 메모리 벤치마킹에 관한 연구는 주로 대화형 인스턴스에 초점을 맞추어 왔지만, 동적 기업 환경에서의 메모리 평가 필요성은 효과적인 적용을 위해 매우 중요합니다. 우리는 멀티 플랫폼 에이전트 환경에서 장기 메모리와 상태 추적을 평가하기 위해 설계된 벤치마크인 MEMTRACK을 소개합니다. MEMTRACK은 Slack, Linear, Git과 같은 여러 커뮤니케이션 및 생산성 플랫폼 간의 비동기적 이벤트를 통합하여 현실적인 조직 워크플로를 모델링합니다. 각 벤치마크 인스턴스는 시간 순으로 플랫폼이 교차된 타임라인을 제공하며, 노이즈가 포함되고 상충되며 상호 참조되는 정보와 잠재적인 코드베이스/파일 시스템 이해 및 탐색을 포함합니다. 결과적으로, 우리의 벤치마크는 획득, 선택 및 충돌 해결과 같은 메모리 능력을 테스트합니다. 우리는 MEMTRACK 데이터셋을 수동 전문가 주도 설계와 확장 가능한 에이전트 기반 합성을 통해 구축하여, 실제 소프트웨어 개발 프로세스에 기반한 생태학적으로 타당한 시나리오를 생성합니다. 우리는 단순한 질의응답 성능을 넘어 메모리 메커니즘의 효과를 포착하는 정확성, 효율성 및 중복성에 대한 적절한 메트릭을 도입합니다. 최신 언어 모델(SoTA LLM)과 메모리 백엔드에 대한 실험은 장기간에 걸친 메모리 활용, 크로스 플랫폼 의존성 처리 및 모순 해결에서의 어려움을 보여줍니다. 특히, 최고 성능을 보인 GPT-5 모델도 MEMTRACK에서 60%의 정확성 점수만을 달성했습니다. 이 작업은 기존의 대화형 설정에 초점을 맞춘 평가 연구를 넘어 메모리 증강 에이전트를 위한 확장 가능한 평가 프레임워크를 제공하며, 복잡한 조직 환경에서의 멀티 에이전트, 멀티 플랫폼 메모리 벤치마킹을 위한 기반을 마련합니다.
English
Recent works on context and memory benchmarking have primarily focused on conversational instances but the need for evaluating memory in dynamic enterprise environments is crucial for its effective application. We introduce MEMTRACK, a benchmark designed to evaluate long-term memory and state tracking in multi-platform agent environments. MEMTRACK models realistic organizational workflows by integrating asynchronous events across multiple communication and productivity platforms such as Slack, Linear and Git. Each benchmark instance provides a chronologically platform-interleaved timeline, with noisy, conflicting, cross-referring information as well as potential codebase/file-system comprehension and exploration. Consequently, our benchmark tests memory capabilities such as acquistion, selection and conflict resolution. We curate the MEMTRACK dataset through both manual expert driven design and scalable agent based synthesis, generating ecologically valid scenarios grounded in real world software development processes. We introduce pertinent metrics for Correctness, Efficiency, and Redundancy that capture the effectiveness of memory mechanisms beyond simple QA performance. Experiments across SoTA LLMs and memory backends reveal challenges in utilizing memory across long horizons, handling cross-platform dependencies, and resolving contradictions. Notably, the best performing GPT-5 model only achieves a 60\% Correctness score on MEMTRACK. This work provides an extensible framework for advancing evaluation research for memory-augmented agents, beyond existing focus on conversational setups, and sets the stage for multi-agent, multi-platform memory benchmarking in complex organizational settings
PDF12October 8, 2025