Code Agent può essere un hacker di sistema end-to-end: valutazione delle minacce real-world degli agenti per l'uso del computer
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
October 8, 2025
Autori: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI
Abstract
I framework degli agenti per l'uso del computer (CUA), alimentati da modelli linguistici di grandi dimensioni (LLM) o da LLM multimodali (MLLM), stanno rapidamente maturando come assistenti in grado di percepire il contesto, ragionare e agire direttamente all'interno degli ambienti software. Tra le loro applicazioni più critiche vi è il controllo del sistema operativo (OS). Man mano che i CUA nel dominio dell'OS diventano sempre più integrati nelle operazioni quotidiane, è imperativo esaminare le loro implicazioni sulla sicurezza nel mondo reale, in particolare se i CUA possano essere abusati per eseguire attacchi realistici e rilevanti per la sicurezza. I lavori esistenti presentano quattro principali limitazioni: la mancanza di un modello di conoscenza dell'attaccante su tattiche, tecniche e procedure (TTP), una copertura incompleta delle catene di attacco end-to-end, un ambiente irrealistico senza multi-host e credenziali utente crittografate, e un giudizio inaffidabile dipendente da LLM-as-a-Judge. Per colmare queste lacune, proponiamo AdvCUA, il primo benchmark allineato con le TTP del mondo reale nella MITRE ATT&CK Enterprise Matrix, che comprende 140 task, inclusi 40 task direttamente malevoli, 74 task malevoli basati su TTP e 26 catene di attacco end-to-end, valutando sistematicamente i CUA in un ambiente sandbox multi-host realistico per le minacce alla sicurezza dell'OS aziendale tramite valutazione hard-coded. Valutiamo i cinque principali CUA esistenti, tra cui ReAct, AutoGPT, Gemini CLI, Cursor CLI e Cursor IDE, basati su 8 LLM di base. I risultati dimostrano che gli attuali CUA all'avanguardia non coprono adeguatamente le minacce incentrate sulla sicurezza dell'OS. Queste capacità dei CUA riducono la dipendenza da malware personalizzati e da una profonda competenza di dominio, consentendo anche ad attaccanti inesperti di montare intrusioni aziendali complesse, sollevando preoccupazioni sociali riguardo alla responsabilità e alla sicurezza dei CUA.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs)
or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can
perceive context, reason, and act directly within software environments. Among
their most critical applications is operating system (OS) control. As CUAs in
the OS domain become increasingly embedded in daily operations, it is
imperative to examine their real-world security implications, specifically
whether CUAs can be misused to perform realistic, security-relevant attacks.
Existing works exhibit four major limitations: Missing attacker-knowledge model
on tactics, techniques, and procedures (TTP), Incomplete coverage for
end-to-end kill chains, unrealistic environment without multi-host and
encrypted user credentials, and unreliable judgment dependent on
LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark
aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises
140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks,
and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic
enterprise OS security threat in a multi-host environment sandbox by hard-coded
evaluation. We evaluate the existing five mainstream CUAs, including ReAct,
AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The
results demonstrate that current frontier CUAs do not adequately cover OS
security-centric threats. These capabilities of CUAs reduce dependence on
custom malware and deep domain expertise, enabling even inexperienced attackers
to mount complex enterprise intrusions, which raises social concern about the
responsibility and security of CUAs.