Entrenamiento Eficiente de Agentes para el Uso de Computadoras

Resumen

La escalabilidad de datos de trayectoria de alta calidad ha sido durante mucho tiempo un cuello de botella crítico para el desarrollo de agentes de uso informático con capacidades similares a las humanas. Presentamos PC Agent-E, un marco de entrenamiento de agentes eficiente que reduce significativamente la dependencia de demostraciones humanas a gran escala. Partiendo de solo 312 trayectorias de uso informático anotadas por humanos, mejoramos aún más la calidad de los datos sintetizando diversas decisiones de acción con Claude 3.7 Sonnet. Entrenado en estas trayectorias enriquecidas, nuestro modelo PC Agent-E logró una notable mejora relativa del 141%, superando al robusto Claude 3.7 Sonnet con pensamiento extendido en WindowsAgentArena-V2, un punto de referencia mejorado que también publicamos. Además, PC Agent-E demuestra una fuerte capacidad de generalización en diferentes sistemas operativos en OSWorld. Nuestros hallazgos sugieren que las capacidades avanzadas de uso informático pueden estimularse a partir de una pequeña cantidad de datos de trayectoria de alta calidad.

English

Scaling up high-quality trajectory data has long been a critical bottleneck for developing human-like computer use agents. We introduce PC Agent-E, an efficient agent training framework that significantly reduces reliance on large-scale human demonstrations. Starting with just 312 human-annotated computer use trajectories, we further improved data quality by synthesizing diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched trajectories, our PC Agent-E model achieved a remarkable 141% relative improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC Agent-E demonstrates strong generalizability to different operating systems on OSWorld. Our findings suggest that strong computer use capabilities can be stimulated from a small amount of high-quality trajectory data.

Entrenamiento Eficiente de Agentes para el Uso de Computadoras

Efficient Agent Training for Computer Use

Resumen

Support