Aprender com Fraquezas: Especialização Automatizada de Domínio para Pequenos Agentes de Uso de Computador

Resumo

Agentes de uso de computador (CUAs) alcançaram recentemente progressos substanciais, mas implantar um grande especialista separado para cada domínio de software permanece caro. Agentes pequenos e abertos de uso de computador são alvos de especialização mais práticos, mas permanecem substancialmente mais fracos e exibem falhas específicas de domínio desiguais. Uma solução direta é sintetizar dados de treinamento em larga escala para o domínio alvo; no entanto, descobrimos que essa abordagem ingênua produz apenas melhorias marginais. Com base nessa observação, apresentamos o LearnWeak, um framework de especialização sem anotação para agentes pequenos de uso de computador que utiliza um agente de referência mais forte para identificar as fraquezas do aluno no domínio alvo, sintetizar tarefas direcionadas e construir supervisão automaticamente. O LearnWeak introduz ainda um objetivo de especialização ciente de erros que separa erros de planejamento e execução, permitindo atualizações comportamentalmente mais precisas do que a supervisão uniforme ampla. No OSWorld, o LearnWeak alcança ganhos médios de 11,6 e 11,1 pontos percentuais sobre o EvoCUA-8B e o OpenCUA-7B, respectivamente, em oito domínios. Também validamos que nossa geração de dados e abordagens de treinamento cientes do aluno superam as linhas de base existentes de geração autônoma de trajetórias e treinamento. Nosso trabalho destaca a importância da consciência do aluno tanto na síntese de dados quanto no treinamento do agente, apontando para um caminho mais fundamentado e eficiente para especializar agentes pequenos de uso de computador em diversos domínios.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.