SkillHarness: Aprovechando Habilidades Seguras para Agentes de Uso de Computadoras

Resumen

Los Agentes de Uso Computacional (CUA) se despliegan cada vez más en entornos interactivos dinámicos, lo que genera una creciente necesidad de aprendizaje continuo de habilidades durante la interacción. Enfoques recientes abordan este desafío aprendiendo habilidades reutilizables a partir de trayectorias exitosas. Sin embargo, estos métodos de aprendizaje de habilidades asumen en gran medida entornos estáticos y seguros, pasando por alto los riesgos derivados de interacciones adversariales (por ejemplo, inyecciones de instrucciones) y dinámicas ambientales (por ejemplo, ventanas emergentes). En entornos dinámicos, tales supuestos pueden conducir a un aprendizaje de habilidades riesgoso y a una ejecución frágil, socavando la confiabilidad de los CUA. Esto plantea la pregunta: ¿cómo pueden los CUA aprender y usar habilidades de manera segura en entornos dinámicos? Para abordar este problema, proponemos SkillHarness, un marco para el aprovechamiento seguro de habilidades en entornos dinámicos. SkillHarness va más allá de las abstracciones estáticas de habilidades al modelar el aprendizaje y la utilización de habilidades como un proceso de interacción restringido por la seguridad. Específicamente, introducimos el límite de habilidad, que aprovecha señales de supervisión de múltiples fuentes para identificar habilidades seguras a partir de trayectorias de interacción, y construimos restricciones de seguridad auto-mejorantes a lo largo del ciclo de vida de la habilidad. Además, SkillHarness introduce la reutilización selectiva de habilidades, donde las tareas se guían para descomponerse según el contexto y completarse mediante la activación selectiva de subconjuntos de habilidades. Nuestros experimentos demuestran que SkillHarness reduce significativamente la tasa de inseguridad de las habilidades aprendidas en un 57.1% y mejora consistentemente la estabilidad de ejecución bajo cambios ambientales dinámicos, superando las líneas base existentes.

English

Computer-Use Agents (CUAs) are increasingly deployed in dynamic interactive environments, creating a growing need for continual skill learning during interaction. Recent approaches address this challenge by learning reusable skills from successful trajectories. However, these skill learning methods largely assume static and safe environments, overlooking risks from adversarial interactions (e.g., prompt injections) and environmental dynamics (e.g., pop-ups). In dynamic settings, such assumptions can lead to risky skill learning and brittle execution, undermining the reliability of CUAs. This raises the question: how can CUAs learn and use skills safely in dynamic environments? To address this problem, we propose SkillHarness, a framework for safe skill harnessing in dynamic environments. SkillHarness moves beyond static skill abstractions by modeling skill learning and utilization as a safety-constrained interaction process. Specifically, we introduce the skill boundary that leverages multi-source supervision signals to identify safe skills from interaction trajectories, and construct self-improving safety constraints throughout the skill lifecycle. In addition, SkillHarness introduces selective skill reuse, where tasks are guided to decompose according to context and completed through the selective activation of skill subsets. Our experiments demonstrate that SkillHarness significantly reduces the unsafe rate of learned skills by 57.1% and consistently improves execution stability under dynamic environmental changes, outperforming existing baselines.