Leren van zwaktes: geautomatiseerde domeinspecialisatie voor kleine computergebruik-agenten

Samenvatting

Computergebruik-agents (CUA's) hebben recentelijk aanzienlijke vooruitgang geboekt, maar het inzetten van een aparte grote expert voor elk softwaredomein blijft duur. Kleine open computergebruik-agents zijn praktischere specialisatiedoelen, maar ze blijven aanzienlijk zwakker en vertonen ongelijkmatige domeinspecifieke fouten. Een voor de hand liggende remedie is het synthetiseren van grootschalige trainingsgegevens voor het doeldomein, maar we ontdekken dat deze naïeve benadering slechts marginale verbeteringen oplevert. Voortbouwend op deze observatie introduceren we LearnWeak, een annotatievrij specialisatieraamwerk voor kleine computergebruik-agents dat een sterker referentie-agent gebruikt om de zwakke punten van de student in het doeldomein te identificeren, gerichte taken te synthetiseren en automatisch supervisie te construeren. LearnWeak introduceert verder een foutbewuste specialisatiedoelstelling die plannings- en uitvoeringsfouten ontwart, wat meer gedragsmatig precieze updates mogelijk maakt dan brede uniforme supervisie. Op OSWorld behaalt LearnWeak gemiddelde winsten van 11,6 en 11,1 procentpunt over respectievelijk EvoCUA-8B en OpenCUA-7B, over acht domeinen. We valideren ook dat onze studentbewuste datasetgeneratie- en trainingsbenaderingen beter presteren dan bestaande autonome trajectgeneratie- en trainingsbaselines. Ons werk benadrukt het belang van studentbewustzijn in zowel datasynthese als agenttraining, en wijst op een meer principiële en efficiënte weg voor het specialiseren van kleine computergebruik-agents in diverse domeinen.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.