Entrenamiento Eficiente de Agentes para el Uso de Computadoras
Efficient Agent Training for Computer Use
May 20, 2025
Autores: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI
Resumen
La escalabilidad de datos de trayectoria de alta calidad ha sido durante mucho tiempo un cuello de botella crítico para el desarrollo de agentes de uso informático con capacidades similares a las humanas. Presentamos PC Agent-E, un marco de entrenamiento de agentes eficiente que reduce significativamente la dependencia de demostraciones humanas a gran escala. Partiendo de solo 312 trayectorias de uso informático anotadas por humanos, mejoramos aún más la calidad de los datos sintetizando diversas decisiones de acción con Claude 3.7 Sonnet. Entrenado en estas trayectorias enriquecidas, nuestro modelo PC Agent-E logró una notable mejora relativa del 141%, superando al robusto Claude 3.7 Sonnet con pensamiento extendido en WindowsAgentArena-V2, un punto de referencia mejorado que también publicamos. Además, PC Agent-E demuestra una fuerte capacidad de generalización en diferentes sistemas operativos en OSWorld. Nuestros hallazgos sugieren que las capacidades avanzadas de uso informático pueden estimularse a partir de una pequeña cantidad de datos de trayectoria de alta calidad.
English
Scaling up high-quality trajectory data has long been a critical bottleneck
for developing human-like computer use agents. We introduce PC Agent-E, an
efficient agent training framework that significantly reduces reliance on
large-scale human demonstrations. Starting with just 312 human-annotated
computer use trajectories, we further improved data quality by synthesizing
diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched
trajectories, our PC Agent-E model achieved a remarkable 141% relative
improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on
WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC
Agent-E demonstrates strong generalizability to different operating systems on
OSWorld. Our findings suggest that strong computer use capabilities can be
stimulated from a small amount of high-quality trajectory data.Summary
AI-Generated Summary