Auditoria de Segurança MCP: Modelos de Linguagem com o Protocolo de Contexto de Modelo Permitem Grandes Explorações de Segurança

Resumo

Para reduzir a sobrecarga de desenvolvimento e permitir uma integração perfeita entre os potenciais componentes que compõem qualquer aplicação de IA generativa, o Protocolo de Contexto de Modelo (Model Context Protocol - MCP) (Anthropic, 2024) foi recentemente lançado e amplamente adotado. O MCP é um protocolo aberto que padroniza chamadas de API para modelos de linguagem de grande escala (LLMs), fontes de dados e ferramentas agentes. Ao conectar múltiplos servidores MCP, cada um definido com um conjunto de ferramentas, recursos e prompts, os usuários podem definir fluxos de trabalho automatizados totalmente impulsionados por LLMs. No entanto, mostramos que o design atual do MCP apresenta uma ampla gama de riscos de segurança para os usuários finais. Em particular, demonstramos que LLMs líderes do setor podem ser coagidos a usar ferramentas MCP para comprometer o sistema de um desenvolvedor de IA por meio de vários ataques, como execução de código malicioso, controle de acesso remoto e roubo de credenciais. Para mitigar proativamente esses e outros ataques relacionados, introduzimos uma ferramenta de auditoria de segurança, o MCPSafetyScanner, a primeira ferramenta agente para avaliar a segurança de um servidor MCP arbitrário. O MCPScanner utiliza vários agentes para (a) determinar automaticamente amostras adversárias dadas as ferramentas e recursos de um servidor MCP; (b) buscar vulnerabilidades e correções relacionadas com base nessas amostras; e (c) gerar um relatório de segurança detalhando todas as descobertas. Nosso trabalho destaca sérios problemas de segurança com fluxos de trabalho agentes de propósito geral, ao mesmo tempo em que fornece uma ferramenta proativa para auditar a segurança de servidores MCP e abordar vulnerabilidades detectadas antes da implantação. A ferramenta de auditoria de servidores MCP descrita, o MCPSafetyScanner, está disponível gratuitamente em: https://github.com/johnhalloran321/mcpSafetyScanner

English

To reduce development overhead and enable seamless integration between potential components comprising any given generative AI application, the Model Context Protocol (MCP) (Anthropic, 2024) has recently been released and subsequently widely adopted. The MCP is an open protocol that standardizes API calls to large language models (LLMs), data sources, and agentic tools. By connecting multiple MCP servers, each defined with a set of tools, resources, and prompts, users are able to define automated workflows fully driven by LLMs. However, we show that the current MCP design carries a wide range of security risks for end users. In particular, we demonstrate that industry-leading LLMs may be coerced into using MCP tools to compromise an AI developer's system through various attacks, such as malicious code execution, remote access control, and credential theft. To proactively mitigate these and related attacks, we introduce a safety auditing tool, MCPSafetyScanner, the first agentic tool to assess the security of an arbitrary MCP server. MCPScanner uses several agents to (a) automatically determine adversarial samples given an MCP server's tools and resources; (b) search for related vulnerabilities and remediations based on those samples; and (c) generate a security report detailing all findings. Our work highlights serious security issues with general-purpose agentic workflows while also providing a proactive tool to audit MCP server safety and address detected vulnerabilities before deployment. The described MCP server auditing tool, MCPSafetyScanner, is freely available at: https://github.com/johnhalloran321/mcpSafetyScanner

Auditoria de Segurança MCP: Modelos de Linguagem com o Protocolo de Contexto de Modelo Permitem Grandes Explorações de Segurança

MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

Resumo

Summary

Support

Support