Слепое пятно безопасности агентов: как безобидные инструкции пользователя выявляют критические уязвимости в агентах, работающих с компьютером
The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
April 12, 2026
Авторы: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao
cs.AI
Аннотация
Агенты компьютерного взаимодействия (АКВ) теперь способны автономно выполнять сложные задачи в реальных цифровых средах, но при введении в заблуждение их также можно программно использовать для автоматизации вредоносных действий. Существующие оценки безопасности в основном нацелены на явные угрозы, такие как злоупотребление и инъекция промптов, но упускают из виду тонкий, но критически важный сценарий, когда инструкции пользователя полностью безобидны, а вред возникает из контекста задачи или результата выполнения. Мы представляем OS-BLIND — бенчмарк для оценки АКВ в условиях непреднамеренных атак, состоящий из 300 задач, созданных человеком, по 12 категориям, 8 приложениям и 2 кластерам угроз: угрозы, встроенные в среду, и вред, инициируемый агентом. Наша оценка передовых моделей и агентских фреймворков показывает, что большинство АКВ превышают 90% успешности атак (УА), и даже безопасно выровненная Claude 4.5 Sonnet достигает 73.0% УА. Что еще интереснее, эта уязвимость усугубляется: УА возрастает с 73.0% до 92.7%, когда Claude 4.5 Sonnet развертывается в мультиагентных системах. Наш анализ также показывает, что существующие механизмы безопасности обеспечивают ограниченную защиту, когда инструкции пользователя безобидны. Выравнивание безопасности в основном активируется на первых нескольких шагах и редко повторно задействуется в ходе последующего выполнения. В мультиагентных системах разложенные на подзадачи вредоносные намерения скрываются от модели, что приводит к сбоям у безопасно выровненных моделей. Мы опубликуем наш OS-BLIND, чтобы побудить широкое исследовательское сообщество к дальнейшему изучению и решению этих проблем безопасности.
English
Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.