弱点から学ぶ:小規模コンピュータ利用エージェントのための自動ドメイン特化
Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents
May 27, 2026
著者: Suji Kim, Kangsan Kim, Sung Ju Hwang
cs.AI
要旨
コンピュータ利用エージェント(CUA)は近年、大きな進歩を遂げているが、各ソフトウェアドメインごとに個別の大規模専門エージェントを展開するには依然としてコストがかかる。小型のオープンコンピュータ利用エージェントは、より実用的な特化対象であるが、性能が著しく劣り、ドメイン固有の失敗が不均一に発生するという課題がある。単純な対策として、対象ドメイン向けの大規模な訓練データを合成することが考えられるが、この単純なアプローチではわずかな改善しか得られないことが判明した。この観察に基づき、我々はLearnWeakを提案する。これは、より強力な参照エージェントを活用して、対象ドメインにおける生徒エージェントの弱点を特定し、目標タスクを合成し、教師信号を自動的に構築する、アノテーションフリーの小型コンピュータ利用エージェント特化フレームワークである。LearnWeakはさらに、エラー認識型特化目的関数を導入し、計画エラーと実行エラーを分離することで、一律の教師信号を用いる場合よりも行動的に精密な更新を可能にする。OSWorldにおいて、LearnWeakは8つのドメインにわたり、EvoCUA-8BおよびOpenCUA-7Bに対してそれぞれ平均11.6ポイントおよび11.1ポイントの向上を達成した。また、我々が提案する生徒認識型のデータセット生成および訓練手法が、既存の自律軌跡生成および訓練ベースラインを上回ることを検証した。本研究は、データ合成とエージェント訓練の両方において生徒認識の重要性を強調し、多様なドメイン向けに小型コンピュータ利用エージェントを特化させるための、より原則的かつ効率的な道筋を示すものである。
English
Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.