Aprender de las debilidades: Especialización automatizada de dominio para agentes pequeños de uso de computadora

Resumen

Los agentes de uso de computadora (CUA, por sus siglas en inglés) han logrado avances sustanciales recientemente, pero implementar un experto de gran tamaño y separado para cada dominio de software sigue siendo costoso. Los agentes pequeños de uso de computadora de código abierto constituyen objetivos de especialización más prácticos, aunque siguen siendo considerablemente más débiles y presentan fallos específicos de dominio desiguales. Una solución directa consiste en sintetizar datos de entrenamiento a gran escala para el dominio objetivo; sin embargo, encontramos que este enfoque ingenuo solo produce mejoras marginales. A partir de esta observación, presentamos LearnWeak, un marco de especialización sin anotaciones para agentes pequeños de uso de computadora que utiliza un agente de referencia más fuerte para identificar las debilidades del estudiante en el dominio objetivo, sintetizar tareas específicas y construir supervisión de forma automática. LearnWeak introduce además un objetivo de especialización consciente de errores que desglosa los errores de planificación y ejecución, lo que permite actualizaciones conductualmente más precisas que la supervisión uniforme y amplia. En OSWorld, LearnWeak logra mejoras promedio de 11,6 y 11,1 puntos porcentuales sobre EvoCUA-8B y OpenCUA-7B, respectivamente, en ocho dominios. También validamos que nuestros métodos de generación y entrenamiento de conjuntos de datos conscientes del estudiante superan las líneas base existentes de generación autónoma de trayectorias y entrenamiento. Nuestro trabajo destaca la importancia de la conciencia del estudiante tanto en la síntesis de datos como en el entrenamiento de agentes, señalando un camino más fundamentado y eficiente para la especialización de agentes pequeños de uso de computadora en diversos dominios.

English

Computer-use agents (CUAs) have recently made substantial progress, but deploying a separate large expert for each software domain remains expensive. Small open computer-use agents are more practical specialization targets, but they remain substantially weaker and exhibit uneven domain-specific failures. A straightforward remedy is to synthesize large-scale training data for the target domain, yet we find that this naive approach yields only marginal improvements. Building on this observation, we introduce LearnWeak, an annotation-free specialization framework for small computer-use agents that uses a stronger reference agent to identify the student's weaknesses in the target domain, synthesize targeted tasks, and construct supervision automatically. LearnWeak further introduces an error-aware specialization objective that disentangles planning and execution errors, enabling more behaviorally precise updates than broad uniform supervision. On OSWorld, LearnWeak achieves average gains of 11.6 and 11.1 percentage points over EvoCUA-8B and OpenCUA-7B, respectively, across eight domains. We also validate that our student-aware dataset generation and training approaches outperform existing autonomous trajectory generation and training baselines. Our work highlights the importance of student awareness in both data synthesis and agent training, pointing toward a more principled and efficient path for specializing small computer-use agents in diverse domains.