Servo, Perseguidor, Predador: Como um Agente Honesto, Prestativo e Inofensivo (3H) Desbloqueia Habilidades Adversariais

Resumo

Este artigo identifica e analisa uma nova classe de vulnerabilidade em sistemas de agentes baseados no Protocolo de Contexto de Modelo (MCP). A cadeia de ataque descreve e demonstra como tarefas benignas e individualmente autorizadas podem ser orquestradas para produzir comportamentos emergentes prejudiciais. Por meio de uma análise sistemática utilizando o framework MITRE ATLAS, demonstramos como 95 agentes testados com acesso a múltiplos serviços — incluindo automação de navegadores, análise financeira, rastreamento de localização e implantação de código — podem encadear operações legítimas em sequências de ataque sofisticadas que ultrapassam os limites de segurança de qualquer serviço individual. Esses exercícios de red team investigam se as arquiteturas atuais de MCP carecem de medidas de segurança entre domínios necessárias para detectar ou prevenir uma grande categoria de ataques composicionais. Apresentamos evidências empíricas de cadeias de ataque específicas que causam danos direcionais por meio da orquestração de serviços, incluindo exfiltração de dados, manipulação financeira e comprometimento de infraestrutura. Essas descobertas revelam que a suposição fundamental de segurança do isolamento de serviços falha quando os agentes podem coordenar ações em múltiplos domínios, criando uma superfície de ataque exponencial que cresce com cada capacidade adicional. Esta pesquisa fornece um framework experimental básico que avalia não se os agentes podem concluir tarefas de benchmark do MCP, mas o que acontece quando eles as concluem de forma excessivamente eficiente e otimizam entre múltiplos serviços de maneiras que violam expectativas humanas e restrições de segurança. Propomos três direções experimentais concretas utilizando o conjunto de benchmarks existente do MCP.

English

This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate operations into sophisticated attack sequences that extend beyond the security boundaries of any individual service. These red team exercises survey whether current MCP architectures lack cross-domain security measures necessary to detect or prevent a large category of compositional attacks. We present empirical evidence of specific attack chains that achieve targeted harm through service orchestration, including data exfiltration, financial manipulation, and infrastructure compromise. These findings reveal that the fundamental security assumption of service isolation fails when agents can coordinate actions across multiple domains, creating an exponential attack surface that grows with each additional capability. This research provides a barebones experimental framework that evaluate not whether agents can complete MCP benchmark tasks, but what happens when they complete them too well and optimize across multiple services in ways that violate human expectations and safety constraints. We propose three concrete experimental directions using the existing MCP benchmark suite.

Servo, Perseguidor, Predador: Como um Agente Honesto, Prestativo e Inofensivo (3H) Desbloqueia Habilidades Adversariais

Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

Resumo

Support