Servo, Perseguidor, Predador: Como um Agente Honesto, Prestativo e Inofensivo (3H) Desbloqueia Habilidades Adversariais
Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
August 27, 2025
Autores: David Noever
cs.AI
Resumo
Este artigo identifica e analisa uma nova classe de vulnerabilidade em sistemas de agentes baseados no Protocolo de Contexto de Modelo (MCP). A cadeia de ataque descreve e demonstra como tarefas benignas e individualmente autorizadas podem ser orquestradas para produzir comportamentos emergentes prejudiciais. Por meio de uma análise sistemática utilizando o framework MITRE ATLAS, demonstramos como 95 agentes testados com acesso a múltiplos serviços — incluindo automação de navegadores, análise financeira, rastreamento de localização e implantação de código — podem encadear operações legítimas em sequências de ataque sofisticadas que ultrapassam os limites de segurança de qualquer serviço individual. Esses exercícios de red team investigam se as arquiteturas atuais de MCP carecem de medidas de segurança entre domínios necessárias para detectar ou prevenir uma grande categoria de ataques composicionais. Apresentamos evidências empíricas de cadeias de ataque específicas que causam danos direcionais por meio da orquestração de serviços, incluindo exfiltração de dados, manipulação financeira e comprometimento de infraestrutura. Essas descobertas revelam que a suposição fundamental de segurança do isolamento de serviços falha quando os agentes podem coordenar ações em múltiplos domínios, criando uma superfície de ataque exponencial que cresce com cada capacidade adicional. Esta pesquisa fornece um framework experimental básico que avalia não se os agentes podem concluir tarefas de benchmark do MCP, mas o que acontece quando eles as concluem de forma excessivamente eficiente e otimizam entre múltiplos serviços de maneiras que violam expectativas humanas e restrições de segurança. Propomos três direções experimentais concretas utilizando o conjunto de benchmarks existente do MCP.
English
This paper identifies and analyzes a novel vulnerability class in Model
Context Protocol (MCP) based agent systems. The attack chain describes and
demonstrates how benign, individually authorized tasks can be orchestrated to
produce harmful emergent behaviors. Through systematic analysis using the MITRE
ATLAS framework, we demonstrate how 95 agents tested with access to multiple
services-including browser automation, financial analysis, location tracking,
and code deployment-can chain legitimate operations into sophisticated attack
sequences that extend beyond the security boundaries of any individual service.
These red team exercises survey whether current MCP architectures lack
cross-domain security measures necessary to detect or prevent a large category
of compositional attacks. We present empirical evidence of specific attack
chains that achieve targeted harm through service orchestration, including data
exfiltration, financial manipulation, and infrastructure compromise. These
findings reveal that the fundamental security assumption of service isolation
fails when agents can coordinate actions across multiple domains, creating an
exponential attack surface that grows with each additional capability. This
research provides a barebones experimental framework that evaluate not whether
agents can complete MCP benchmark tasks, but what happens when they complete
them too well and optimize across multiple services in ways that violate human
expectations and safety constraints. We propose three concrete experimental
directions using the existing MCP benchmark suite.