MCP-Cosmos : Agents augmentés par un modèle du monde pour l'exécution de tâches complexes dans les environnements MCP
MCP-Cosmos: World Model-Augmented Agents for Complex Task Execution in MCP Environments
May 9, 2026
Auteurs: Giridhar Ganapavarapu, Dhaval Patel
cs.AI
Résumé
Le Model Context Protocol (MCP) a uniformisé l'interface entre les grands modèles de langage (LLM) et les outils externes, mais un fossé fondamental subsiste dans la manière dont les agents conceptualisent les environnements dans lesquels ils opèrent. Les paradigmes actuels sont divisés : la planification au niveau des tâches ignore souvent les dynamiques d'exécution, tandis que l'exécution réactive manque de prévoyance à long terme. Nous présentons MCP-Cosmos, un cadre qui intègre des modèles du monde génératifs dans l'écosystème MCP pour permettre une automatisation prédictive des tâches. En unifiant trois technologies distinctes, à savoir MCP, les modèles du monde et l'agent, nous démontrons qu'une stratégie « Apportez votre propre modèle du monde » (BYOWM) permet aux agents de simuler les transitions d'état et d'affiner les plans dans un espace latent avant l'exécution. Nous avons mené des expériences en utilisant deux stratégies, ReAct et SPIRAL, avec deux modèles de planification et trois modèles du monde représentatifs sur plus de 20 tâches de MCP-Bench. Nous avons observé des améliorations dans les indicateurs de performance clés (KPI) de l'interaction agent-environnement, comme le taux de succès des outils et la précision des paramètres des outils. Le cadre offre également de nouvelles métriques, telles que la Qualité d'Exécution, pour générer de nouvelles perspectives sur l'efficacité des modèles du monde par rapport à la référence.
English
The Model Context Protocol (MCP) has unified the interface between Large Language Models (LLMs) and external tools, yet a fundamental gap remains in how agents conceptualize the environments within which they operate. Current paradigms are bifurcated: Task-level planning often ignores execution-time dynamics, while reactive execution lacks long-horizon foresight. We present MCP-Cosmos, a framework that infuses generative World Models (WM) into the MCP ecosystem to enable predictive task automation. By unifying three disparate technologies, namely MCP, World Model, and Agent, we demonstrate that a "Bring Your Own World Model" (BYOWM) strategy allows agents to simulate state transitions and refine plans in a latent space before execution. We conducted experiments using two strategies, namely ReAct and SPIRAL with 2 planning models and 3 representative world models over 20+ MCP-Bench tasks. We observed improvements in Agent's environment interaction KPI such as tool success rate and tool parameter accuracy. The framework also offers new metrics such as Execution Quality to generate new insights about the effectiveness of world models compared to baseline.