Code Agent kan een end-to-end systeemhacker zijn: Benchmarking van real-world bedreigingen door computergebruik-agenten
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
October 8, 2025
Auteurs: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI
Samenvatting
Computer-use agent (CUA)-frameworks, aangedreven door grote taalmodellen (LLMs) of multimodale LLMs (MLLMs), ontwikkelen zich snel als assistenten die context kunnen waarnemen, redeneren en direct kunnen handelen binnen softwareomgevingen. Een van hun meest kritieke toepassingen is besturingssysteem (OS)-controle. Naarmate CUAs in het OS-domein steeds meer ingebed raken in dagelijkse operaties, is het essentieel om hun real-world beveiligingsimplicaties te onderzoeken, specifiek of CUAs misbruikt kunnen worden om realistische, beveiligingsrelevante aanvallen uit te voeren. Bestaande werken vertonen vier belangrijke beperkingen: een ontbrekend aanvallerskennismodel voor tactieken, technieken en procedures (TTP), onvolledige dekking voor end-to-end kill chains, een onrealistische omgeving zonder multi-host en versleutelde gebruikersreferenties, en onbetrouwbaar oordeel afhankelijk van LLM-as-a-Judge. Om deze lacunes aan te pakken, stellen we AdvCUA voor, de eerste benchmark die is afgestemd op real-world TTPs in de MITRE ATT&CK Enterprise Matrix, die bestaat uit 140 taken, waaronder 40 directe kwaadaardige taken, 74 TTP-gebaseerde kwaadaardige taken en 26 end-to-end kill chains, en CUAs systematisch evalueert onder een realistische bedreiging van enterprise OS-beveiliging in een multi-host omgeving sandbox door middel van hard-coded evaluatie. We evalueren de bestaande vijf mainstream CUAs, waaronder ReAct, AutoGPT, Gemini CLI, Cursor CLI en Cursor IDE, gebaseerd op 8 foundation LLMs. De resultaten tonen aan dat de huidige frontier CUAs niet voldoende dekking bieden voor OS-beveiligingsgerichte bedreigingen. Deze mogelijkheden van CUAs verminderen de afhankelijkheid van aangepaste malware en diepgaande domeinkennis, waardoor zelfs onervaren aanvallers complexe enterprise-inbraken kunnen uitvoeren, wat maatschappelijke zorgen oproept over de verantwoordelijkheid en beveiliging van CUAs.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs)
or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can
perceive context, reason, and act directly within software environments. Among
their most critical applications is operating system (OS) control. As CUAs in
the OS domain become increasingly embedded in daily operations, it is
imperative to examine their real-world security implications, specifically
whether CUAs can be misused to perform realistic, security-relevant attacks.
Existing works exhibit four major limitations: Missing attacker-knowledge model
on tactics, techniques, and procedures (TTP), Incomplete coverage for
end-to-end kill chains, unrealistic environment without multi-host and
encrypted user credentials, and unreliable judgment dependent on
LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark
aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises
140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks,
and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic
enterprise OS security threat in a multi-host environment sandbox by hard-coded
evaluation. We evaluate the existing five mainstream CUAs, including ReAct,
AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The
results demonstrate that current frontier CUAs do not adequately cover OS
security-centric threats. These capabilities of CUAs reduce dependence on
custom malware and deep domain expertise, enabling even inexperienced attackers
to mount complex enterprise intrusions, which raises social concern about the
responsibility and security of CUAs.