MCP-Cosmos: MCP 환경에서 복잡한 작업 실행을 위한 세계 모델 증강 에이전트
MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments
May 9, 2026
저자: Giridhar Ganapavarapu, Dhaval Patel
cs.AI
초록
모델 컨텍스트 프로토콜(MCP)은 대규모 언어 모델(LLM)과 외부 도구 간의 인터페이스를 통일했지만, 에이전트가 자신이 작동하는 환경을 개념화하는 방식에는 여전히 근본적인 격차가 존재한다. 현재의 패러다임은 분기되어 있는데, 태스크 수준의 계획은 종종 실행 중 동적 변화를 무시하는 반면, 반응적 실행은 장기적 예측 능력이 부족하다. 본 논문은 생성적 세계 모델(WM)을 MCP 생태계에 주입하여 예측 기반 태스크 자동화를 가능하게 하는 프레임워크인 MCP-Cosmos를 제시한다. MCP, 세계 모델, 에이전트라는 세 가지 이질적인 기술을 통합함으로써, '자체 세계 모델 가져오기(BYOWM)' 전략을 통해 에이전트가 실행 전에 잠재 공간에서 상태 전이를 시뮬레이션하고 계획을 정제할 수 있음을 입증한다. 우리는 ReAct 및 SPIRAL이라는 두 가지 전략을 사용하여 2개의 계획 모델과 3개의 대표적 세계 모델을 20개 이상의 MCP-Bench 태스크에 적용한 실험을 수행했다. 그 결과 에이전트의 환경 상호작용 핵심 성과 지표(KPI), 예를 들어 도구 성공률 및 도구 매개변수 정확도에서 개선을 관찰했다. 또한, 본 프레임워크는 실행 품질(Execution Quality)과 같은 새로운 지표를 제공하여 세계 모델의 효과성을 기준선 대비 분석할 수 있는 새로운 통찰을 생성한다.
English
The Model Context Protocol (MCP) has unified the interface between Large Language Models (LLMs) and external tools, yet a fundamental gap remains in how agents conceptualize the environments within which they operate. Current paradigms are bifurcated: Task-level planning often ignores execution-time dynamics, while reactive execution lacks long-horizon foresight. We present MCP-Cosmos, a framework that infuses generative World Models (WM) into the MCP ecosystem to enable predictive task automation. By unifying three disparate technologies, namely MCP, World Model, and Agent, we demonstrate that a "Bring Your Own World Model" (BYOWM) strategy allows agents to simulate state transitions and refine plans in a latent space before execution. We conducted experiments using two strategies, namely ReAct and SPIRAL with 2 planning models and 3 representative world models over 20+ MCP-Bench tasks. We observed improvements in Agent's environment interaction KPI such as tool success rate and tool parameter accuracy. The framework also offers new metrics such as Execution Quality to generate new insights about the effectiveness of world models compared to baseline.