ChatPaper.aiChatPaper

MCP-Persona: 환경 시뮬레이션을 통한 실제 개인용 애플리케이션에서의 LLM 에이전트 벤치마킹

MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

June 1, 2026
저자: Wenhao Wang, Peizhi Niu, Gongyi Zou, Xiyuan Yang, Jingxing Wang, Haoting Shi, Yaxin Du, Jingyi Chai, Xianghe Pang, Shuo Tang, Yanfeng Wang, Siheng Chen
cs.AI

초록

모델 컨텍스트 프로토콜(MCP)은 대규모 언어 모델(LLM)을 외부 데이터 소스 및 도구와 연결하기 위한 혁신적인 표준으로 부상하여 개인용 애플리케이션 및 개발 플랫폼 전반에서 빠르게 채택되고 있습니다. 그러나 기존 벤치마크는 주로 일반적인 정보 탐색 도구에 초점을 맞추고 있으며, 도구가 개인 계정 또는 로컬 데이터베이스와 상호작용하는 개인용 소셜 애플리케이션에서 발생하는 실질적인 과제를 포착하지 못합니다. 이러한 중요한 격차를 해소하기 위해, 우리는 실제 세계의 개인화된 MCP 도구에서 에이전트 성능을 평가하도록 특별히 설계된 최초의 벤치마크인 MCP-Persona를 소개합니다. MCP-Persona는 Reddit 및 Xiaohongshu(레드노트)와 같은 소셜 미디어 플랫폼에서부터 Lark(Feishu) 및 Slack과 같은 엔터프라이즈 협업 제품군에 이르기까지, 널리 사용되는 다양한 애플리케이션을 포함합니다. 다양한 최첨단(SOTA) 에이전트에 대한 광범위한 실험 결과, 이들이 개인화된 도구 사용에 상당한 어려움을 겪는 것이 입증되었으며, 이는 이러한 한계를 식별하고 해결하는 데 있어 벤치마크의 중요한 역할을 강조합니다. MCP-Persona는 https://github.com/wwh0411/MCP-Persona에서 공개적으로 이용 가능합니다.
English
The Model Context Protocol (MCP) has emerged as a transformative standard for connecting large language models (LLMs) with external data sources and tools, and has been rapidly adopted across personal applications and development platforms. However, existing benchmarks predominantly focus on generic information-seeking tools and fail to capture the practical challenges posed by personal social applications, where tools interact with individual accounts or local databases. To bridge this critical gap, we introduce MCP-Persona, the first benchmark specifically designed for evaluating agent performance on real-world, personalized MCP tools. MCP-Persona encompasses a diverse set of widely-used applications, ranging from social media platforms like Reddit and Xiaohongshu (Rednote) to enterprise collaboration suites such as Lark (Feishu) and Slack. Our extensive experiments on various state-of-the-art (SOTA) agents demonstrate their significant struggles with personalized tool use, thereby highlighting the benchmark's crucial role in identifying and addressing these limitations. MCP-Persona is publicly available at https://github.com/wwh0411/MCP-Persona}{https://github.com/wwh0411/MCP-Persona.