O Code Agent pode ser um hacker de sistema de ponta a ponta: Avaliando ameaças do mundo real de agentes de uso de computador
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
October 8, 2025
Autores: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI
Resumo
Frameworks de agentes de uso de computador (CUA), impulsionados por modelos de linguagem de grande escala (LLMs) ou LLMs multimodais (MLLMs), estão amadurecendo rapidamente como assistentes capazes de perceber contexto, raciocinar e agir diretamente em ambientes de software. Entre suas aplicações mais críticas está o controle de sistemas operacionais (OS). À medida que os CUAs no domínio de OS se tornam cada vez mais integrados às operações diárias, é imperativo examinar suas implicações de segurança no mundo real, especificamente se os CUAs podem ser mal utilizados para realizar ataques realistas e relevantes para a segurança. Os trabalhos existentes apresentam quatro grandes limitações: Falta de um modelo de conhecimento do atacante sobre táticas, técnicas e procedimentos (TTP), Cobertura incompleta para cadeias de ataque de ponta a ponta, ambiente irreal sem múltiplos hosts e credenciais de usuário criptografadas, e julgamento não confiável dependente de LLM-como-juiz. Para abordar essas lacunas, propomos o AdvCUA, o primeiro benchmark alinhado com TTPs do mundo real na Matriz Enterprise do MITRE ATT&CK, que compreende 140 tarefas, incluindo 40 tarefas maliciosas diretas, 74 tarefas maliciosas baseadas em TTP e 26 cadeias de ataque de ponta a ponta, avaliando sistematicamente os CUAs sob uma ameaça de segurança realista de OS empresarial em um ambiente sandbox de múltiplos hosts por meio de avaliação codificada. Avaliamos os cinco CUAs principais existentes, incluindo ReAct, AutoGPT, Gemini CLI, Cursor CLI e Cursor IDE, com base em 8 LLMs fundamentais. Os resultados demonstram que os CUAs de fronteira atuais não cobrem adequadamente as ameaças centradas na segurança de OS. Essas capacidades dos CUAs reduzem a dependência de malware personalizado e de conhecimento profundo do domínio, permitindo que até mesmo atacantes inexperientes realizem intrusões empresariais complexas, o que levanta preocupações sociais sobre a responsabilidade e a segurança dos CUAs.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs)
or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can
perceive context, reason, and act directly within software environments. Among
their most critical applications is operating system (OS) control. As CUAs in
the OS domain become increasingly embedded in daily operations, it is
imperative to examine their real-world security implications, specifically
whether CUAs can be misused to perform realistic, security-relevant attacks.
Existing works exhibit four major limitations: Missing attacker-knowledge model
on tactics, techniques, and procedures (TTP), Incomplete coverage for
end-to-end kill chains, unrealistic environment without multi-host and
encrypted user credentials, and unreliable judgment dependent on
LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark
aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises
140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks,
and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic
enterprise OS security threat in a multi-host environment sandbox by hard-coded
evaluation. We evaluate the existing five mainstream CUAs, including ReAct,
AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The
results demonstrate that current frontier CUAs do not adequately cover OS
security-centric threats. These capabilities of CUAs reduce dependence on
custom malware and deep domain expertise, enabling even inexperienced attackers
to mount complex enterprise intrusions, which raises social concern about the
responsibility and security of CUAs.