ChatPaper.aiChatPaper

Code Agent puede ser un hacker de sistema de extremo a extremo: Evaluación de amenazas reales en el mundo de los agentes de uso informático.

Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent

October 8, 2025
Autores: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI

Resumen

Los marcos de agentes de uso informático (CUA, por sus siglas en inglés), impulsados por modelos de lenguaje de gran escala (LLMs) o modelos de lenguaje multimodal (MLLMs), están madurando rápidamente como asistentes capaces de percibir contextos, razonar y actuar directamente dentro de entornos de software. Entre sus aplicaciones más críticas se encuentra el control de sistemas operativos (SO). A medida que los CUAs en el dominio de los SO se integran cada vez más en las operaciones diarias, es imperativo examinar sus implicaciones de seguridad en el mundo real, específicamente si los CUAs pueden ser mal utilizados para realizar ataques realistas y relevantes para la seguridad. Los trabajos existentes presentan cuatro limitaciones principales: la falta de un modelo de conocimiento del atacante sobre tácticas, técnicas y procedimientos (TTP), la cobertura incompleta de cadenas de ataque de extremo a extremo, un entorno poco realista sin múltiples hosts y credenciales de usuario cifradas, y un juicio poco confiable que depende de LLM-como-Juez. Para abordar estas brechas, proponemos AdvCUA, el primer punto de referencia alineado con los TTPs del mundo real en la Matriz Empresarial MITRE ATT&CK, que comprende 140 tareas, incluyendo 40 tareas maliciosas directas, 74 tareas maliciosas basadas en TTP y 26 cadenas de ataque de extremo a extremo, evaluando sistemáticamente los CUAs bajo una amenaza de seguridad realista en un entorno empresarial de SO con múltiples hosts en un sandbox mediante evaluación codificada. Evaluamos los cinco CUAs principales existentes, incluyendo ReAct, AutoGPT, Gemini CLI, Cursor CLI y Cursor IDE, basados en 8 LLMs fundamentales. Los resultados demuestran que los CUAs de vanguardia actuales no cubren adecuadamente las amenazas centradas en la seguridad de los SO. Estas capacidades de los CUAs reducen la dependencia de malware personalizado y de un profundo conocimiento del dominio, permitiendo incluso a atacantes sin experiencia montar intrusiones empresariales complejas, lo que genera preocupación social sobre la responsabilidad y seguridad de los CUAs.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs) or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can perceive context, reason, and act directly within software environments. Among their most critical applications is operating system (OS) control. As CUAs in the OS domain become increasingly embedded in daily operations, it is imperative to examine their real-world security implications, specifically whether CUAs can be misused to perform realistic, security-relevant attacks. Existing works exhibit four major limitations: Missing attacker-knowledge model on tactics, techniques, and procedures (TTP), Incomplete coverage for end-to-end kill chains, unrealistic environment without multi-host and encrypted user credentials, and unreliable judgment dependent on LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises 140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks, and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic enterprise OS security threat in a multi-host environment sandbox by hard-coded evaluation. We evaluate the existing five mainstream CUAs, including ReAct, AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The results demonstrate that current frontier CUAs do not adequately cover OS security-centric threats. These capabilities of CUAs reduce dependence on custom malware and deep domain expertise, enabling even inexperienced attackers to mount complex enterprise intrusions, which raises social concern about the responsibility and security of CUAs.
PDF32October 9, 2025