Addestramento Efficiente degli Agenti per l'Utilizzo del Computer
Efficient Agent Training for Computer Use
May 20, 2025
Autori: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI
Abstract
L'aumento di dati di traiettoria di alta qualità è stato a lungo un collo di bottiglia critico per lo sviluppo di agenti informatici con capacità simili a quelle umane. Presentiamo PC Agent-E, un framework di addestramento efficiente per agenti che riduce significativamente la dipendenza da dimostrazioni umane su larga scala. Partendo da soli 312 percorsi di utilizzo del computer annotati da esseri umani, abbiamo ulteriormente migliorato la qualità dei dati sintetizzando decisioni d'azione diverse con Claude 3.7 Sonnet. Addestrato su queste traiettorie arricchite, il nostro modello PC Agent-E ha ottenuto un notevole miglioramento relativo del 141%, superando il robusto Claude 3.7 Sonnet con pensiero esteso su WindowsAgentArena-V2, un benchmark migliorato che abbiamo anche rilasciato. Inoltre, PC Agent-E dimostra una forte generalizzabilità su diversi sistemi operativi su OSWorld. I nostri risultati suggeriscono che forti capacità di utilizzo del computer possono essere stimolate da una piccola quantità di dati di traiettoria di alta qualità.
English
Scaling up high-quality trajectory data has long been a critical bottleneck
for developing human-like computer use agents. We introduce PC Agent-E, an
efficient agent training framework that significantly reduces reliance on
large-scale human demonstrations. Starting with just 312 human-annotated
computer use trajectories, we further improved data quality by synthesizing
diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched
trajectories, our PC Agent-E model achieved a remarkable 141% relative
improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on
WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC
Agent-E demonstrates strong generalizability to different operating systems on
OSWorld. Our findings suggest that strong computer use capabilities can be
stimulated from a small amount of high-quality trajectory data.