Auditoría de Seguridad MCP: Los Modelos de Lenguaje con el Protocolo de Contexto del Modelo Permiten Explotaciones de Seguridad Graves
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits
April 2, 2025
Autores: Brandon Radosevich, John Halloran
cs.AI
Resumen
Para reducir la sobrecarga de desarrollo y permitir una integración fluida entre los posibles componentes que conforman cualquier aplicación de IA generativa, recientemente se ha lanzado y ampliamente adoptado el Protocolo de Contexto de Modelo (MCP, por sus siglas en inglés) (Anthropic, 2024). El MCP es un protocolo abierto que estandariza las llamadas API a modelos de lenguaje grandes (LLMs), fuentes de datos y herramientas agentes. Al conectar múltiples servidores MCP, cada uno definido con un conjunto de herramientas, recursos y prompts, los usuarios pueden definir flujos de trabajo automatizados completamente impulsados por LLMs. Sin embargo, demostramos que el diseño actual del MCP conlleva una amplia gama de riesgos de seguridad para los usuarios finales. En particular, mostramos que los LLMs líderes en la industria pueden ser coaccionados para utilizar herramientas MCP con el fin de comprometer el sistema de un desarrollador de IA mediante diversos ataques, como la ejecución de código malicioso, el control de acceso remoto y el robo de credenciales. Para mitigar proactivamente estos y otros ataques relacionados, presentamos una herramienta de auditoría de seguridad, MCPSafetyScanner, la primera herramienta agente diseñada para evaluar la seguridad de un servidor MCP arbitrario. MCPScanner utiliza varios agentes para (a) determinar automáticamente muestras adversarias dadas las herramientas y recursos de un servidor MCP; (b) buscar vulnerabilidades relacionadas y remediaciones basadas en esas muestras; y (c) generar un informe de seguridad que detalla todos los hallazgos. Nuestro trabajo destaca serios problemas de seguridad en los flujos de trabajo agentes de propósito general, al mismo tiempo que proporciona una herramienta proactiva para auditar la seguridad de los servidores MCP y abordar las vulnerabilidades detectadas antes de su implementación. La herramienta de auditoría de servidores MCP descrita, MCPSafetyScanner, está disponible gratuitamente en: https://github.com/johnhalloran321/mcpSafetyScanner.
English
To reduce development overhead and enable seamless integration between
potential components comprising any given generative AI application, the Model
Context Protocol (MCP) (Anthropic, 2024) has recently been released and
subsequently widely adopted. The MCP is an open protocol that standardizes API
calls to large language models (LLMs), data sources, and agentic tools. By
connecting multiple MCP servers, each defined with a set of tools, resources,
and prompts, users are able to define automated workflows fully driven by LLMs.
However, we show that the current MCP design carries a wide range of security
risks for end users. In particular, we demonstrate that industry-leading LLMs
may be coerced into using MCP tools to compromise an AI developer's system
through various attacks, such as malicious code execution, remote access
control, and credential theft. To proactively mitigate these and related
attacks, we introduce a safety auditing tool, MCPSafetyScanner, the first
agentic tool to assess the security of an arbitrary MCP server. MCPScanner uses
several agents to (a) automatically determine adversarial samples given an MCP
server's tools and resources; (b) search for related vulnerabilities and
remediations based on those samples; and (c) generate a security report
detailing all findings. Our work highlights serious security issues with
general-purpose agentic workflows while also providing a proactive tool to
audit MCP server safety and address detected vulnerabilities before deployment.
The described MCP server auditing tool, MCPSafetyScanner, is freely available
at: https://github.com/johnhalloran321/mcpSafetyScannerSummary
AI-Generated Summary