Обучение на слабостях: автоматизированная специализация предметной области для небольших компьютерных агентов

Аннотация

Агенты, использующие компьютер (CUA), в последнее время достигли значительного прогресса, однако развертывание отдельного крупного эксперта для каждой программной области остается дорогостоящим. Малые открытые агенты компьютерного использования являются более практичными целями для специализации, но они остаются значительно слабее и демонстрируют неравномерные отказы в конкретных областях. Простым решением является синтез крупномасштабных обучающих данных для целевой области, однако мы обнаружили, что этот наивный подход дает лишь незначительные улучшения. Основываясь на этом наблюдении, мы представляем LearnWeak — фреймворк специализации без разметки для малых агентов компьютерного использования, который использует более сильного эталонного агента для выявления слабых мест ученика в целевой области, синтеза целевых задач и автоматического построения обучения. LearnWeak также вводит целевую функцию специализации, учитывающую ошибки, которая разделяет ошибки планирования и выполнения, что позволяет проводить более точные с поведенческой точки зрения обновления, чем широкое равномерное обучение. На OSWorld LearnWeak достигает среднего прироста в 11,6 и 11,1 процентных пункта относительно EvoCUA-8B и OpenCUA-7B соответственно по восьми доменам. Мы также подтверждаем, что наши подходы к генерации набора данных и обучению с учетом ученика превосходят существующие базовые подходы автономной генерации траекторий и обучения. Наша работа подчеркивает важность учета ученика как при синтезе данных, так и при обучении агентов, указывая на более принципиальный и эффективный путь специализации малых агентов компьютерного использования в различных областях.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.