SkillHarness: Het benutten van veilige vaardigheden voor computergebruik-agenten

Samenvatting

Computergebruikagenten (CUA's) worden steeds vaker ingezet in dynamische interactieve omgevingen, wat een groeiende behoefte creëert aan continue vaardigheidsontwikkeling tijdens de interactie. Recente benaderingen pakken deze uitdaging aan door herbruikbare vaardigheden te leren uit succesvolle trajecten. Deze methoden voor vaardigheidsontwikkeling gaan echter grotendeels uit van statische en veilige omgevingen, waarbij risico's van adversariële interacties (bijv. promptinjecties) en omgevingsdynamiek (bijv. pop-ups) over het hoofd worden gezien. In dynamische omgevingen kunnen dergelijke aannames leiden tot risicovolle vaardigheidsontwikkeling en breekbare uitvoering, wat de betrouwbaarheid van CUA's ondermijnt. Dit roept de vraag op: hoe kunnen CUA's veilig vaardigheden leren en gebruiken in dynamische omgevingen? Om dit probleem aan te pakken, stellen we SkillHarness voor, een raamwerk voor veilig vaardigheden benutten in dynamische omgevingen. SkillHarness gaat verder dan statische vaardigheidsabstracties door vaardigheidsontwikkeling en -gebruik te modelleren als een veiligheidsbeperkt interactieproces. Specifiek introduceren we de vaardigheidsgrens die gebruikmaakt van multi-bron supervisiesignalen om veilige vaardigheden te identificeren uit interactietrajecten, en zelfverbeterende veiligheidsbeperkingen te construeren gedurende de hele levenscyclus van de vaardigheid. Daarnaast introduceert SkillHarness selectief hergebruik van vaardigheden, waarbij taken worden begeleid om zich te ontleden op basis van context en worden voltooid door de selectieve activering van subsets van vaardigheden. Onze experimenten tonen aan dat SkillHarness het onveiligheidspercentage van geleerde vaardigheden met 57,1% aanzienlijk verlaagt en consistent de uitvoeringsstabiliteit verbetert onder dynamische omgevingsveranderingen, waarmee het beter presteert dan bestaande basislijnen.

English

Computer-Use Agents (CUAs) are increasingly deployed in dynamic interactive environments, creating a growing need for continual skill learning during interaction. Recent approaches address this challenge by learning reusable skills from successful trajectories. However, these skill learning methods largely assume static and safe environments, overlooking risks from adversarial interactions (e.g., prompt injections) and environmental dynamics (e.g., pop-ups). In dynamic settings, such assumptions can lead to risky skill learning and brittle execution, undermining the reliability of CUAs. This raises the question: how can CUAs learn and use skills safely in dynamic environments? To address this problem, we propose SkillHarness, a framework for safe skill harnessing in dynamic environments. SkillHarness moves beyond static skill abstractions by modeling skill learning and utilization as a safety-constrained interaction process. Specifically, we introduce the skill boundary that leverages multi-source supervision signals to identify safe skills from interaction trajectories, and construct self-improving safety constraints throughout the skill lifecycle. In addition, SkillHarness introduces selective skill reuse, where tasks are guided to decompose according to context and completed through the selective activation of skill subsets. Our experiments demonstrate that SkillHarness significantly reduces the unsafe rate of learned skills by 57.1% and consistently improves execution stability under dynamic environmental changes, outperforming existing baselines.