Code Agent peut être un pirate de système de bout en bout : Évaluation des menaces réelles des agents d'utilisation informatique.
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
October 8, 2025
papers.authors: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI
papers.abstract
Les frameworks d'agents d'utilisation informatique (CUA), alimentés par des modèles de langage de grande taille (LLM) ou des LLM multimodaux (MLLM), évoluent rapidement en tant qu'assistants capables de percevoir le contexte, de raisonner et d'agir directement dans des environnements logiciels. Parmi leurs applications les plus critiques figure le contrôle des systèmes d'exploitation (OS). Alors que les CUA dans le domaine des OS s'intègrent de plus en plus dans les opérations quotidiennes, il est impératif d'examiner leurs implications en matière de sécurité dans le monde réel, en particulier si les CUA peuvent être détournés pour exécuter des attaques réalistes et pertinentes pour la sécurité. Les travaux existants présentent quatre limitations majeures : l'absence de modèle de connaissance de l'attaquant sur les tactiques, techniques et procédures (TTP), une couverture incomplète des chaînes de destruction de bout en bout, un environnement irréaliste sans hôtes multiples et sans informations d'identification utilisateur chiffrées, et un jugement peu fiable dépendant du LLM-comme-juge. Pour combler ces lacunes, nous proposons AdvCUA, le premier benchmark aligné sur les TTP réels de la matrice MITRE ATT&CK Enterprise, qui comprend 140 tâches, dont 40 tâches malveillantes directes, 74 tâches malveillantes basées sur les TTP et 26 chaînes de destruction de bout en bout, évaluant systématiquement les CUA dans un environnement sandbox réaliste de menace de sécurité OS en entreprise avec plusieurs hôtes, via une évaluation codée en dur. Nous évaluons les cinq CUA grand public existants, notamment ReAct, AutoGPT, Gemini CLI, Cursor CLI et Cursor IDE, basés sur 8 LLM de base. Les résultats démontrent que les CUA actuels de pointe ne couvrent pas adéquatement les menaces centrées sur la sécurité des OS. Ces capacités des CUA réduisent la dépendance aux logiciels malveillants personnalisés et à l'expertise approfondie du domaine, permettant même à des attaquants inexpérimentés de mener des intrusions complexes en entreprise, ce qui soulève des préoccupations sociales concernant la responsabilité et la sécurité des CUA.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs)
or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can
perceive context, reason, and act directly within software environments. Among
their most critical applications is operating system (OS) control. As CUAs in
the OS domain become increasingly embedded in daily operations, it is
imperative to examine their real-world security implications, specifically
whether CUAs can be misused to perform realistic, security-relevant attacks.
Existing works exhibit four major limitations: Missing attacker-knowledge model
on tactics, techniques, and procedures (TTP), Incomplete coverage for
end-to-end kill chains, unrealistic environment without multi-host and
encrypted user credentials, and unreliable judgment dependent on
LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark
aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises
140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks,
and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic
enterprise OS security threat in a multi-host environment sandbox by hard-coded
evaluation. We evaluate the existing five mainstream CUAs, including ReAct,
AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The
results demonstrate that current frontier CUAs do not adequately cover OS
security-centric threats. These capabilities of CUAs reduce dependence on
custom malware and deep domain expertise, enabling even inexperienced attackers
to mount complex enterprise intrusions, which raises social concern about the
responsibility and security of CUAs.