Apprendre des faiblesses : Spécialisation automatisée de domaine pour petits agents d'utilisation d'ordinateur

Résumé

Les agents d'utilisation d'ordinateur (CUA) ont récemment réalisé des progrès substantiels, mais déployer un grand expert distinct pour chaque domaine logiciel reste coûteux. Les petits agents d'utilisation d'ordinateur ouverts constituent des cibles de spécialisation plus pratiques, mais ils demeurent considérablement plus faibles et présentent des échecs spécifiques aux domaines inégaux. Un remède simple consiste à synthétiser des données d'entraînement à grande échelle pour le domaine cible, mais nous constatons que cette approche naïve n'apporte qu'une amélioration marginale. À partir de cette observation, nous introduisons LearnWeak, un cadre de spécialisation sans annotation pour les petits agents d'utilisation d'ordinateur, qui utilise un agent de référence plus fort pour identifier les faiblesses de l'élève dans le domaine cible, synthétiser des tâches ciblées et construire une supervision de manière automatique. LearnWeak introduit en outre un objectif de spécialisation sensible aux erreurs qui dissocie les erreurs de planification et d'exécution, permettant des mises à jour comportementales plus précises qu'une supervision large et uniforme. Sur OSWorld, LearnWeak obtient des gains moyens de 11,6 et 11,1 points de pourcentage par rapport à EvoCUA-8B et OpenCUA-7B, respectivement, sur huit domaines. Nous validons également que nos méthodes de génération de données et d'entraînement tenant compte de l'élève surpassent les lignes de base existantes de génération de trajectoires et d'entraînement autonomes. Nos travaux soulignent l'importance de la prise en compte de l'élève à la fois dans la synthèse de données et l'entraînement des agents, ouvrant la voie à une approche plus systématique et efficace pour spécialiser les petits agents d'utilisation d'ordinateur dans divers domaines.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.