ChatPaper.aiChatPaper

Servitore, Predatore, Inseguitore: Come un Agente Onesto, Utile e Innocuo (3H) Sblocca Abilità Adversariali

Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

August 27, 2025
Autori: David Noever
cs.AI

Abstract

Questo articolo identifica e analizza una nuova classe di vulnerabilità nei sistemi di agenti basati sul protocollo Model Context Protocol (MCP). La catena di attacco descrive e dimostra come compiti benigni e individualmente autorizzati possano essere orchestrati per produrre comportamenti emergenti dannosi. Attraverso un'analisi sistematica utilizzando il framework MITRE ATLAS, dimostriamo come 95 agenti testati con accesso a più servizi, tra cui automazione del browser, analisi finanziaria, tracciamento della posizione e distribuzione del codice, possano concatenare operazioni legittime in sequenze di attacco sofisticate che vanno oltre i confini di sicurezza di qualsiasi singolo servizio. Questi esercizi di red team indagano se le attuali architetture MCP manchino di misure di sicurezza cross-domain necessarie per rilevare o prevenire una vasta categoria di attacchi composizionali. Presentiamo prove empiriche di specifiche catene di attacco che causano danni mirati attraverso l'orchestrazione di servizi, tra cui esfiltrazione di dati, manipolazione finanziaria e compromissione delle infrastrutture. Questi risultati rivelano che l'assunzione fondamentale di sicurezza dell'isolamento dei servizi fallisce quando gli agenti possono coordinare azioni attraverso più domini, creando una superficie di attacco esponenziale che cresce con ogni capacità aggiuntiva. Questa ricerca fornisce un framework sperimentale di base che valuta non se gli agenti possano completare i compiti di benchmark MCP, ma cosa accade quando li completano troppo bene e ottimizzano attraverso più servizi in modi che violano le aspettative umane e i vincoli di sicurezza. Proponiamo tre direzioni sperimentali concrete utilizzando la suite di benchmark MCP esistente.
English
This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate operations into sophisticated attack sequences that extend beyond the security boundaries of any individual service. These red team exercises survey whether current MCP architectures lack cross-domain security measures necessary to detect or prevent a large category of compositional attacks. We present empirical evidence of specific attack chains that achieve targeted harm through service orchestration, including data exfiltration, financial manipulation, and infrastructure compromise. These findings reveal that the fundamental security assumption of service isolation fails when agents can coordinate actions across multiple domains, creating an exponential attack surface that grows with each additional capability. This research provides a barebones experimental framework that evaluate not whether agents can complete MCP benchmark tasks, but what happens when they complete them too well and optimize across multiple services in ways that violate human expectations and safety constraints. We propose three concrete experimental directions using the existing MCP benchmark suite.
PDF11August 28, 2025