Code Agent kann ein End-to-End-System-Hacker sein: Benchmarking realer Bedrohungen durch Computer-Nutzungs-Agenten

papers.abstract

Computer-Use-Agent (CUA)-Frameworks, die durch große Sprachmodelle (LLMs) oder multimodale LLMs (MLLMs) angetrieben werden, entwickeln sich schnell zu Assistenten, die Kontext wahrnehmen, schlussfolgern und direkt in Softwareumgebungen handeln können. Zu ihren wichtigsten Anwendungen gehört die Steuerung von Betriebssystemen (OS). Da CUAs im OS-Bereich zunehmend in den täglichen Betrieb integriert werden, ist es unerlässlich, ihre realen Sicherheitsauswirkungen zu untersuchen, insbesondere ob CUAs missbraucht werden können, um realistische, sicherheitsrelevante Angriffe durchzuführen. Bestehende Arbeiten weisen vier wesentliche Einschränkungen auf: Fehlendes Angreiferwissensmodell zu Taktiken, Techniken und Verfahren (TTP), unvollständige Abdeckung von End-to-End-Kill-Chains, unrealistische Umgebung ohne Multi-Host- und verschlüsselte Benutzeranmeldeinformationen sowie unzuverlässige Bewertung, die auf LLM-as-a-Judge basiert. Um diese Lücken zu schließen, schlagen wir AdvCUA vor, den ersten Benchmark, der mit realen TTPs in der MITRE ATT&CK Enterprise Matrix abgestimmt ist und 140 Aufgaben umfasst, darunter 40 direkte bösartige Aufgaben, 74 TTP-basierte bösartige Aufgaben und 26 End-to-End-Kill-Chains. Dieser bewertet CUAs systematisch unter einer realistischen Bedrohung der Unternehmens-OS-Sicherheit in einer Multi-Host-Umgebungssandbox durch hartkodierte Bewertung. Wir bewerten die fünf bestehenden Mainstream-CUAs, darunter ReAct, AutoGPT, Gemini CLI, Cursor CLI und Cursor IDE, basierend auf 8 grundlegenden LLMs. Die Ergebnisse zeigen, dass aktuelle fortschrittliche CUAs OS-sicherheitszentrierte Bedrohungen nicht ausreichend abdecken. Diese Fähigkeiten von CUAs verringern die Abhängigkeit von maßgeschneiderter Malware und tiefgreifendem Domänenwissen und ermöglichen es sogar unerfahrenen Angreifern, komplexe Unternehmensintrusionen durchzuführen, was gesellschaftliche Bedenken hinsichtlich der Verantwortung und Sicherheit von CUAs aufwirft.

English

Computer-use agent (CUA) frameworks, powered by large language models (LLMs) or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can perceive context, reason, and act directly within software environments. Among their most critical applications is operating system (OS) control. As CUAs in the OS domain become increasingly embedded in daily operations, it is imperative to examine their real-world security implications, specifically whether CUAs can be misused to perform realistic, security-relevant attacks. Existing works exhibit four major limitations: Missing attacker-knowledge model on tactics, techniques, and procedures (TTP), Incomplete coverage for end-to-end kill chains, unrealistic environment without multi-host and encrypted user credentials, and unreliable judgment dependent on LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises 140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks, and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic enterprise OS security threat in a multi-host environment sandbox by hard-coded evaluation. We evaluate the existing five mainstream CUAs, including ReAct, AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The results demonstrate that current frontier CUAs do not adequately cover OS security-centric threats. These capabilities of CUAs reduce dependence on custom malware and deep domain expertise, enabling even inexperienced attackers to mount complex enterprise intrusions, which raises social concern about the responsibility and security of CUAs.

Code Agent kann ein End-to-End-System-Hacker sein: Benchmarking realer Bedrohungen durch Computer-Nutzungs-Agenten

Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent

papers.abstract

Support