El Punto Ciego de la Seguridad de los Agentes: Cómo las Instrucciones Benignas de los Usuarios Exponen Vulnerabilidades Críticas en los Agentes de Uso Informático
The Blind Spot of Agent Safety: How Benign User Instructions Expose Critical Vulnerabilities in Computer-Use Agents
April 12, 2026
Autores: Xuwei Ding, Skylar Zhai, Linxin Song, Jiate Li, Taiwei Shi, Nicholas Meade, Siva Reddy, Jian Kang, Jieyu Zhao
cs.AI
Resumen
Los agentes de uso informático (CUA) pueden ahora completar tareas complejas de forma autónoma en entornos digitales reales, pero cuando son engañados, también pueden utilizarse para automatizar acciones dañinas de manera programática. Las evaluaciones de seguridad existentes se centran principalmente en amenazas explícitas como el uso indebido y la inyección de prompts, pero pasan por alto un escenario sutil aunque crítico donde las instrucciones del usuario son completamente benignas y el daño surge del contexto de la tarea o del resultado de la ejecución. Presentamos OS-BLIND, un benchmark que evalúa a los CUAs bajo condiciones de ataque no intencionadas, compuesto por 300 tareas creadas por humanos en 12 categorías, 8 aplicaciones y 2 clusters de amenazas: amenazas integradas en el entorno y daños iniciados por el agente. Nuestra evaluación en modelos de vanguardia y frameworks agenticos revela que la mayoría de los CUAs superan el 90% de tasa de éxito de ataque (ASR), e incluso el Claude 4.5 Sonnet, alineado con la seguridad, alcanza un 73.0% de ASR. Más interesante aún, esta vulnerabilidad se agrava, con la ASR aumentando del 73.0% al 92.7% cuando Claude 4.5 Sonnet se despliega en sistemas multiagente. Nuestro análisis muestra además que las defensas de seguridad existentes ofrecen una protección limitada cuando las instrucciones del usuario son benignas. La alineación de seguridad se activa principalmente en los primeros pasos y rara vez se reactiva durante la ejecución posterior. En sistemas multiagente, las subtareas descompuestas ocultan la intención dañina del modelo, haciendo que fallen los modelos alineados con la seguridad. Liberaremos nuestro OS-BLIND para animar a la comunidad investigadora a investigar y abordar estos desafíos de seguridad.
English
Computer-use agents (CUAs) can now autonomously complete complex tasks in real digital environments, but when misled, they can also be used to automate harmful actions programmatically. Existing safety evaluations largely target explicit threats such as misuse and prompt injection, but overlook a subtle yet critical setting where user instructions are entirely benign and harm arises from the task context or execution outcome. We introduce OS-BLIND, a benchmark that evaluates CUAs under unintended attack conditions, comprising 300 human-crafted tasks across 12 categories, 8 applications, and 2 threat clusters: environment-embedded threats and agent-initiated harms. Our evaluation on frontier models and agentic frameworks reveals that most CUAs exceed 90% attack success rate (ASR), and even the safety-aligned Claude 4.5 Sonnet reaches 73.0% ASR. More interestingly, this vulnerability becomes even more severe, with ASR rising from 73.0% to 92.7% when Claude 4.5 Sonnet is deployed in multi-agent systems. Our analysis further shows that existing safety defenses provide limited protection when user instructions are benign. Safety alignment primarily activates within the first few steps and rarely re-engages during subsequent execution. In multi-agent systems, decomposed subtasks obscure the harmful intent from the model, causing safety-aligned models to fail. We will release our OS-BLIND to encourage the broader research community to further investigate and address these safety challenges.