Dienaar, Stalker, Roofdier: Hoe een Eerlijk, Behulpzaam en Onschadelijk (3H) Agent Adversariële Vaardigheden Ontgrendelt
Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills
August 27, 2025
Auteurs: David Noever
cs.AI
Samenvatting
Dit artikel identificeert en analyseert een nieuwe kwetsbaarheidsklasse in agentsystemen gebaseerd op het Model Context Protocol (MCP). De aanvalsketen beschrijft en demonstreert hoe goedaardige, individueel geautoriseerde taken kunnen worden gecoördineerd om schadelijke emergent gedrag te produceren. Door middel van systematische analyse met behulp van het MITRE ATLAS-framework tonen we aan hoe 95 geteste agents met toegang tot meerdere diensten – waaronder browserautomatisering, financiële analyse, locatievolging en code-implementatie – legitieme operaties kunnen aaneenschakelen tot geavanceerde aanvalssequenties die verder reiken dan de beveiligingsgrenzen van individuele diensten. Deze red team-oefeningen onderzoeken of huidige MCP-architecturen de nodige cross-domein beveiligingsmaatregelen missen om een grote categorie van compositieaanvallen te detecteren of te voorkomen. We presenteren empirisch bewijs van specifieke aanvalsketens die gerichte schade veroorzaken door diensten te coördineren, waaronder data-exfiltratie, financiële manipulatie en infrastructuurcompromis. Deze bevindingen onthullen dat de fundamentele beveiligingsaanname van dienstenisolatie faalt wanneer agents acties kunnen coördineren over meerdere domeinen, wat resulteert in een exponentieel groeiend aanvalsoppervlak met elke extra functionaliteit. Dit onderzoek biedt een eenvoudig experimenteel kader dat niet evalueert of agents MCP-benchmarktaken kunnen voltooien, maar wat er gebeurt wanneer ze deze taken te goed uitvoeren en optimaliseren over meerdere diensten op manieren die menselijke verwachtingen en veiligheidsbeperkingen schenden. We stellen drie concrete experimentele richtingen voor met behulp van de bestaande MCP-benchmarksuite.
English
This paper identifies and analyzes a novel vulnerability class in Model
Context Protocol (MCP) based agent systems. The attack chain describes and
demonstrates how benign, individually authorized tasks can be orchestrated to
produce harmful emergent behaviors. Through systematic analysis using the MITRE
ATLAS framework, we demonstrate how 95 agents tested with access to multiple
services-including browser automation, financial analysis, location tracking,
and code deployment-can chain legitimate operations into sophisticated attack
sequences that extend beyond the security boundaries of any individual service.
These red team exercises survey whether current MCP architectures lack
cross-domain security measures necessary to detect or prevent a large category
of compositional attacks. We present empirical evidence of specific attack
chains that achieve targeted harm through service orchestration, including data
exfiltration, financial manipulation, and infrastructure compromise. These
findings reveal that the fundamental security assumption of service isolation
fails when agents can coordinate actions across multiple domains, creating an
exponential attack surface that grows with each additional capability. This
research provides a barebones experimental framework that evaluate not whether
agents can complete MCP benchmark tasks, but what happens when they complete
them too well and optimize across multiple services in ways that violate human
expectations and safety constraints. We propose three concrete experimental
directions using the existing MCP benchmark suite.