Servitore, Predatore, Inseguitore: Come un Agente Onesto, Utile e Innocuo (3H) Sblocca Abilità Adversariali
Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
August 27, 2025
Autori: David Noever
cs.AI
Abstract
Questo articolo identifica e analizza una nuova classe di vulnerabilità nei sistemi di agenti basati sul protocollo Model Context Protocol (MCP). La catena di attacco descrive e dimostra come compiti benigni e individualmente autorizzati possano essere orchestrati per produrre comportamenti emergenti dannosi. Attraverso un'analisi sistematica utilizzando il framework MITRE ATLAS, dimostriamo come 95 agenti testati con accesso a più servizi, tra cui automazione del browser, analisi finanziaria, tracciamento della posizione e distribuzione del codice, possano concatenare operazioni legittime in sequenze di attacco sofisticate che vanno oltre i confini di sicurezza di qualsiasi singolo servizio. Questi esercizi di red team indagano se le attuali architetture MCP manchino di misure di sicurezza cross-domain necessarie per rilevare o prevenire una vasta categoria di attacchi composizionali. Presentiamo prove empiriche di specifiche catene di attacco che causano danni mirati attraverso l'orchestrazione di servizi, tra cui esfiltrazione di dati, manipolazione finanziaria e compromissione delle infrastrutture. Questi risultati rivelano che l'assunzione fondamentale di sicurezza dell'isolamento dei servizi fallisce quando gli agenti possono coordinare azioni attraverso più domini, creando una superficie di attacco esponenziale che cresce con ogni capacità aggiuntiva. Questa ricerca fornisce un framework sperimentale di base che valuta non se gli agenti possano completare i compiti di benchmark MCP, ma cosa accade quando li completano troppo bene e ottimizzano attraverso più servizi in modi che violano le aspettative umane e i vincoli di sicurezza. Proponiamo tre direzioni sperimentali concrete utilizzando la suite di benchmark MCP esistente.
English
This paper identifies and analyzes a novel vulnerability class in Model
Context Protocol (MCP) based agent systems. The attack chain describes and
demonstrates how benign, individually authorized tasks can be orchestrated to
produce harmful emergent behaviors. Through systematic analysis using the MITRE
ATLAS framework, we demonstrate how 95 agents tested with access to multiple
services-including browser automation, financial analysis, location tracking,
and code deployment-can chain legitimate operations into sophisticated attack
sequences that extend beyond the security boundaries of any individual service.
These red team exercises survey whether current MCP architectures lack
cross-domain security measures necessary to detect or prevent a large category
of compositional attacks. We present empirical evidence of specific attack
chains that achieve targeted harm through service orchestration, including data
exfiltration, financial manipulation, and infrastructure compromise. These
findings reveal that the fundamental security assumption of service isolation
fails when agents can coordinate actions across multiple domains, creating an
exponential attack surface that grows with each additional capability. This
research provides a barebones experimental framework that evaluate not whether
agents can complete MCP benchmark tasks, but what happens when they complete
them too well and optimize across multiple services in ways that violate human
expectations and safety constraints. We propose three concrete experimental
directions using the existing MCP benchmark suite.