Code Agent peut être un pirate de système de bout en bout : Évaluation des menaces réelles des agents d'utilisation informatique.

Résumé

Les frameworks d'agents d'utilisation informatique (CUA), alimentés par des modèles de langage de grande taille (LLM) ou des LLM multimodaux (MLLM), évoluent rapidement en tant qu'assistants capables de percevoir le contexte, de raisonner et d'agir directement dans des environnements logiciels. Parmi leurs applications les plus critiques figure le contrôle des systèmes d'exploitation (OS). Alors que les CUA dans le domaine des OS s'intègrent de plus en plus dans les opérations quotidiennes, il est impératif d'examiner leurs implications en matière de sécurité dans le monde réel, en particulier si les CUA peuvent être détournés pour exécuter des attaques réalistes et pertinentes pour la sécurité. Les travaux existants présentent quatre limitations majeures : l'absence de modèle de connaissance de l'attaquant sur les tactiques, techniques et procédures (TTP), une couverture incomplète des chaînes de destruction de bout en bout, un environnement irréaliste sans hôtes multiples et sans informations d'identification utilisateur chiffrées, et un jugement peu fiable dépendant du LLM-comme-juge. Pour combler ces lacunes, nous proposons AdvCUA, le premier benchmark aligné sur les TTP réels de la matrice MITRE ATT&CK Enterprise, qui comprend 140 tâches, dont 40 tâches malveillantes directes, 74 tâches malveillantes basées sur les TTP et 26 chaînes de destruction de bout en bout, évaluant systématiquement les CUA dans un environnement sandbox réaliste de menace de sécurité OS en entreprise avec plusieurs hôtes, via une évaluation codée en dur. Nous évaluons les cinq CUA grand public existants, notamment ReAct, AutoGPT, Gemini CLI, Cursor CLI et Cursor IDE, basés sur 8 LLM de base. Les résultats démontrent que les CUA actuels de pointe ne couvrent pas adéquatement les menaces centrées sur la sécurité des OS. Ces capacités des CUA réduisent la dépendance aux logiciels malveillants personnalisés et à l'expertise approfondie du domaine, permettant même à des attaquants inexpérimentés de mener des intrusions complexes en entreprise, ce qui soulève des préoccupations sociales concernant la responsabilité et la sécurité des CUA.

English

Computer-use agent (CUA) frameworks, powered by large language models (LLMs) or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can perceive context, reason, and act directly within software environments. Among their most critical applications is operating system (OS) control. As CUAs in the OS domain become increasingly embedded in daily operations, it is imperative to examine their real-world security implications, specifically whether CUAs can be misused to perform realistic, security-relevant attacks. Existing works exhibit four major limitations: Missing attacker-knowledge model on tactics, techniques, and procedures (TTP), Incomplete coverage for end-to-end kill chains, unrealistic environment without multi-host and encrypted user credentials, and unreliable judgment dependent on LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises 140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks, and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic enterprise OS security threat in a multi-host environment sandbox by hard-coded evaluation. We evaluate the existing five mainstream CUAs, including ReAct, AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The results demonstrate that current frontier CUAs do not adequately cover OS security-centric threats. These capabilities of CUAs reduce dependence on custom malware and deep domain expertise, enabling even inexperienced attackers to mount complex enterprise intrusions, which raises social concern about the responsibility and security of CUAs.