SkillHarness: Применение безопасных навыков для агентов, работающих с компьютером

Аннотация

Агенты, использующие компьютер (Computer-Use Agents, CUAs), все чаще применяются в динамических интерактивных средах, что порождает растущую потребность в непрерывном обучении навыкам в процессе взаимодействия. Современные подходы решают эту задачу путем изучения повторно используемых навыков на основе успешных траекторий. Однако такие методы обучения навыкам в значительной степени предполагают статичные и безопасные среды, игнорируя риски, связанные с adversarial-взаимодействиями (например, инъекции промптов) и динамикой окружения (например, всплывающие окна). В динамических условиях подобные допущения могут привести к рискованному обучению навыкам и хрупкому выполнению задач, подрывая надежность CUAs. Это ставит вопрос: как могут CUAs безопасно изучать и использовать навыки в динамических средах? Для решения этой проблемы мы предлагаем SkillHarness — фреймворк для безопасного извлечения навыков в динамических средах. SkillHarness выходит за рамки статичных абстракций навыков, моделируя обучение и использование навыков как процесс взаимодействия с ограничениями безопасности. В частности, мы вводим понятие границы навыка, которое использует сигналы из множества источников надзора для идентификации безопасных навыков из траекторий взаимодействия, и создаем самоулучшающиеся ограничения безопасности на протяжении всего жизненного цикла навыка. Кроме того, SkillHarness предлагает выборочное повторное использование навыков, при котором задачи направляются на декомпозицию в соответствии с контекстом и выполняются путем избирательной активации подмножеств навыков. Наши эксперименты показывают, что SkillHarness значительно снижает уровень небезопасности изученных навыков на 57,1% и последовательно повышает стабильность выполнения в условиях динамических изменений среды, превосходя существующие базовые подходы.

English

Computer-Use Agents (CUAs) are increasingly deployed in dynamic interactive environments, creating a growing need for continual skill learning during interaction. Recent approaches address this challenge by learning reusable skills from successful trajectories. However, these skill learning methods largely assume static and safe environments, overlooking risks from adversarial interactions (e.g., prompt injections) and environmental dynamics (e.g., pop-ups). In dynamic settings, such assumptions can lead to risky skill learning and brittle execution, undermining the reliability of CUAs. This raises the question: how can CUAs learn and use skills safely in dynamic environments? To address this problem, we propose SkillHarness, a framework for safe skill harnessing in dynamic environments. SkillHarness moves beyond static skill abstractions by modeling skill learning and utilization as a safety-constrained interaction process. Specifically, we introduce the skill boundary that leverages multi-source supervision signals to identify safe skills from interaction trajectories, and construct self-improving safety constraints throughout the skill lifecycle. In addition, SkillHarness introduces selective skill reuse, where tasks are guided to decompose according to context and completed through the selective activation of skill subsets. Our experiments demonstrate that SkillHarness significantly reduces the unsafe rate of learned skills by 57.1% and consistently improves execution stability under dynamic environmental changes, outperforming existing baselines.