Code Agent может быть сквозным системным хакером: оценка реальных угроз, создаваемых агентами для работы с компьютерами
Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
October 8, 2025
Авторы: Weidi Luo, Qiming Zhang, Tianyu Lu, Xiaogeng Liu, Bin Hu, Hung-Chun Chiu, Siyuan Ma, Yizhe Zhang, Xusheng Xiao, Yinzhi Cao, Zhen Xiang, Chaowei Xiao
cs.AI
Аннотация
Фреймворки агентов для работы с компьютером (CUA), основанные на крупных языковых моделях (LLM) или мультимодальных языковых моделях (MLLM), быстро развиваются как помощники, способные воспринимать контекст, рассуждать и действовать непосредственно в программных средах. Одним из их наиболее важных применений является управление операционными системами (ОС). По мере того как CUA в области ОС всё глубже внедряются в повседневные операции, крайне важно изучить их реальные последствия для безопасности, в частности, могут ли CUA быть использованы для выполнения реалистичных атак, связанных с безопасностью. Существующие работы имеют четыре основных ограничения: отсутствие модели знаний злоумышленника о тактиках, техниках и процедурах (TTP), неполное покрытие цепочек атак от начала до конца, нереалистичная среда без учёта многомашинных систем и зашифрованных учётных данных пользователей, а также ненадёжная оценка, зависящая от LLM-как-судьи. Для устранения этих пробелов мы предлагаем AdvCUA — первый бенчмарк, соответствующий реальным TTP из матрицы MITRE ATT&CK Enterprise, который включает 140 задач, в том числе 40 прямых вредоносных задач, 74 задачи на основе TTP и 26 полных цепочек атак, систематически оценивая CUA в реалистичной среде угроз безопасности корпоративных ОС в многомашинной песочнице с использованием жёстко заданной оценки. Мы оцениваем пять существующих популярных CUA, включая ReAct, AutoGPT, Gemini CLI, Cursor CLI и Cursor IDE, на основе 8 базовых LLM. Результаты показывают, что современные передовые CUA недостаточно охватывают угрозы, связанные с безопасностью ОС. Эти возможности CUA снижают зависимость от специализированного вредоносного ПО и глубоких экспертных знаний, позволяя даже неопытным злоумышленникам осуществлять сложные корпоративные вторжения, что вызывает социальную озабоченность в отношении ответственности и безопасности CUA.
English
Computer-use agent (CUA) frameworks, powered by large language models (LLMs)
or multimodal LLMs (MLLMs), are rapidly maturing as assistants that can
perceive context, reason, and act directly within software environments. Among
their most critical applications is operating system (OS) control. As CUAs in
the OS domain become increasingly embedded in daily operations, it is
imperative to examine their real-world security implications, specifically
whether CUAs can be misused to perform realistic, security-relevant attacks.
Existing works exhibit four major limitations: Missing attacker-knowledge model
on tactics, techniques, and procedures (TTP), Incomplete coverage for
end-to-end kill chains, unrealistic environment without multi-host and
encrypted user credentials, and unreliable judgment dependent on
LLM-as-a-Judge. To address these gaps, we propose AdvCUA, the first benchmark
aligned with real-world TTPs in MITRE ATT&CK Enterprise Matrix, which comprises
140 tasks, including 40 direct malicious tasks, 74 TTP-based malicious tasks,
and 26 end-to-end kill chains, systematically evaluates CUAs under a realistic
enterprise OS security threat in a multi-host environment sandbox by hard-coded
evaluation. We evaluate the existing five mainstream CUAs, including ReAct,
AutoGPT, Gemini CLI, Cursor CLI, and Cursor IDE based on 8 foundation LLMs. The
results demonstrate that current frontier CUAs do not adequately cover OS
security-centric threats. These capabilities of CUAs reduce dependence on
custom malware and deep domain expertise, enabling even inexperienced attackers
to mount complex enterprise intrusions, which raises social concern about the
responsibility and security of CUAs.