ChatPaper.aiChatPaper

Dienaar, Stalker, Roofdier: Hoe een Eerlijk, Behulpzaam en Onschadelijk (3H) Agent Adversariële Vaardigheden Ontgrendelt

Servant, Stalker, Predator: How An Honest, Helpful, And Harmless (3H) Agent Unlocks Adversarial Skills

August 27, 2025
Auteurs: David Noever
cs.AI

Samenvatting

Dit artikel identificeert en analyseert een nieuwe kwetsbaarheidsklasse in agentsystemen gebaseerd op het Model Context Protocol (MCP). De aanvalsketen beschrijft en demonstreert hoe goedaardige, individueel geautoriseerde taken kunnen worden gecoördineerd om schadelijke emergent gedrag te produceren. Door middel van systematische analyse met behulp van het MITRE ATLAS-framework tonen we aan hoe 95 geteste agents met toegang tot meerdere diensten – waaronder browserautomatisering, financiële analyse, locatievolging en code-implementatie – legitieme operaties kunnen aaneenschakelen tot geavanceerde aanvalssequenties die verder reiken dan de beveiligingsgrenzen van individuele diensten. Deze red team-oefeningen onderzoeken of huidige MCP-architecturen de nodige cross-domein beveiligingsmaatregelen missen om een grote categorie van compositieaanvallen te detecteren of te voorkomen. We presenteren empirisch bewijs van specifieke aanvalsketens die gerichte schade veroorzaken door diensten te coördineren, waaronder data-exfiltratie, financiële manipulatie en infrastructuurcompromis. Deze bevindingen onthullen dat de fundamentele beveiligingsaanname van dienstenisolatie faalt wanneer agents acties kunnen coördineren over meerdere domeinen, wat resulteert in een exponentieel groeiend aanvalsoppervlak met elke extra functionaliteit. Dit onderzoek biedt een eenvoudig experimenteel kader dat niet evalueert of agents MCP-benchmarktaken kunnen voltooien, maar wat er gebeurt wanneer ze deze taken te goed uitvoeren en optimaliseren over meerdere diensten op manieren die menselijke verwachtingen en veiligheidsbeperkingen schenden. We stellen drie concrete experimentele richtingen voor met behulp van de bestaande MCP-benchmarksuite.
English
This paper identifies and analyzes a novel vulnerability class in Model Context Protocol (MCP) based agent systems. The attack chain describes and demonstrates how benign, individually authorized tasks can be orchestrated to produce harmful emergent behaviors. Through systematic analysis using the MITRE ATLAS framework, we demonstrate how 95 agents tested with access to multiple services-including browser automation, financial analysis, location tracking, and code deployment-can chain legitimate operations into sophisticated attack sequences that extend beyond the security boundaries of any individual service. These red team exercises survey whether current MCP architectures lack cross-domain security measures necessary to detect or prevent a large category of compositional attacks. We present empirical evidence of specific attack chains that achieve targeted harm through service orchestration, including data exfiltration, financial manipulation, and infrastructure compromise. These findings reveal that the fundamental security assumption of service isolation fails when agents can coordinate actions across multiple domains, creating an exponential attack surface that grows with each additional capability. This research provides a barebones experimental framework that evaluate not whether agents can complete MCP benchmark tasks, but what happens when they complete them too well and optimize across multiple services in ways that violate human expectations and safety constraints. We propose three concrete experimental directions using the existing MCP benchmark suite.
PDF11August 28, 2025