Formation efficace d'agents pour l'utilisation informatique
Efficient Agent Training for Computer Use
May 20, 2025
Auteurs: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI
Résumé
L'augmentation de données de trajectoires de haute qualité a longtemps constitué un goulot d'étranglement critique pour le développement d'agents informatiques à l'usage humain. Nous présentons PC Agent-E, un cadre d'entraînement d'agents efficace qui réduit considérablement la dépendance aux démonstrations humaines à grande échelle. En partant de seulement 312 trajectoires d'utilisation informatique annotées par des humains, nous avons encore amélioré la qualité des données en synthétisant des décisions d'actions diversifiées avec Claude 3.7 Sonnet. Entraîné sur ces trajectoires enrichies, notre modèle PC Agent-E a obtenu une amélioration relative remarquable de 141%, surpassant le puissant Claude 3.7 Sonnet avec une réflexion étendue sur WindowsAgentArena-V2, un benchmark amélioré que nous avons également publié. De plus, PC Agent-E démontre une forte généralisabilité à différents systèmes d'exploitation sur OSWorld. Nos résultats suggèrent que des capacités d'utilisation informatique robustes peuvent être stimulées à partir d'une petite quantité de données de trajectoires de haute qualité.
English
Scaling up high-quality trajectory data has long been a critical bottleneck
for developing human-like computer use agents. We introduce PC Agent-E, an
efficient agent training framework that significantly reduces reliance on
large-scale human demonstrations. Starting with just 312 human-annotated
computer use trajectories, we further improved data quality by synthesizing
diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched
trajectories, our PC Agent-E model achieved a remarkable 141% relative
improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on
WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC
Agent-E demonstrates strong generalizability to different operating systems on
OSWorld. Our findings suggest that strong computer use capabilities can be
stimulated from a small amount of high-quality trajectory data.Summary
AI-Generated Summary