Aus Schwächen lernen: Automatisierte Domänenspezialisierung für kleine Computer-Nutzungs-Agenten

Zusammenfassung

Computer-Use-Agenten (CUAs) haben in jüngster Zeit erhebliche Fortschritte erzielt, doch die Bereitstellung eines separaten großen Experten für jede Softwaredomäne bleibt teuer. Kleine Open-Source-Computer-Use-Agenten stellen praktischere Spezialisierungsziele dar, sind jedoch substanziell schwächer und weisen uneinheitliche domänenspezifische Fehler auf. Ein naheliegender Lösungsansatz besteht in der Synthese großer Mengen an Trainingsdaten für die Zieldomäne, doch zeigt sich, dass dieser naive Ansatz nur marginale Verbesserungen bringt. Darauf aufbauend führen wir LearnWeak ein, ein annotationsfreies Spezialisierungsframework für kleine Computer-Use-Agenten, das einen stärkeren Referenzagenten nutzt, um die Schwächen des Schülers in der Zieldomäne zu identifizieren, gezielte Aufgaben zu synthetisieren und automatisch Überwachung zu konstruieren. LearnWeak führt zudem ein fehlerbewusstes Spezialisierungsziel ein, das Planungs- und Ausführungsfehler voneinander trennt und somit verhaltenspräzisere Aktualisierungen ermöglicht als eine breite, einheitliche Überwachung. Auf OSWorld erzielt LearnWeak durchschnittliche Steigerungen von 11,6 bzw. 11,1 Prozentpunkten gegenüber EvoCUA-8B bzw. OpenCUA-7B über acht Domänen hinweg. Wir bestätigen zudem, dass unser schülerbewusster Ansatz zur Datengenerierung und zum Training bestehende Baselines der autonomen Trajektoriengenerierung und des Trainings übertrifft. Unsere Arbeit unterstreicht die Bedeutung der Schülerbewusstheit sowohl bei der Datensynthese als auch beim Agententraining und weist einen prinzipientreueren und effizienteren Weg zur Spezialisierung kleiner Computer-Use-Agenten in verschiedenen Domänen.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.