ChatPaper.aiChatPaper

Addestramento Efficiente degli Agenti per l'Utilizzo del Computer

Efficient Agent Training for Computer Use

May 20, 2025
Autori: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI

Abstract

L'aumento di dati di traiettoria di alta qualità è stato a lungo un collo di bottiglia critico per lo sviluppo di agenti informatici con capacità simili a quelle umane. Presentiamo PC Agent-E, un framework di addestramento efficiente per agenti che riduce significativamente la dipendenza da dimostrazioni umane su larga scala. Partendo da soli 312 percorsi di utilizzo del computer annotati da esseri umani, abbiamo ulteriormente migliorato la qualità dei dati sintetizzando decisioni d'azione diverse con Claude 3.7 Sonnet. Addestrato su queste traiettorie arricchite, il nostro modello PC Agent-E ha ottenuto un notevole miglioramento relativo del 141%, superando il robusto Claude 3.7 Sonnet con pensiero esteso su WindowsAgentArena-V2, un benchmark migliorato che abbiamo anche rilasciato. Inoltre, PC Agent-E dimostra una forte generalizzabilità su diversi sistemi operativi su OSWorld. I nostri risultati suggeriscono che forti capacità di utilizzo del computer possono essere stimolate da una piccola quantità di dati di traiettoria di alta qualità.
English
Scaling up high-quality trajectory data has long been a critical bottleneck for developing human-like computer use agents. We introduce PC Agent-E, an efficient agent training framework that significantly reduces reliance on large-scale human demonstrations. Starting with just 312 human-annotated computer use trajectories, we further improved data quality by synthesizing diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched trajectories, our PC Agent-E model achieved a remarkable 141% relative improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC Agent-E demonstrates strong generalizability to different operating systems on OSWorld. Our findings suggest that strong computer use capabilities can be stimulated from a small amount of high-quality trajectory data.
PDF452May 22, 2025