Efficiënte training van agents voor computergebruik
Efficient Agent Training for Computer Use
May 20, 2025
Auteurs: Yanheng He, Jiahe Jin, Pengfei Liu
cs.AI
Samenvatting
Het opschalen van hoogwaardige trajectgegevens is lange tijd een kritieke bottleneck geweest voor de ontwikkeling van mensachtige computergebruiksagenten. Wij introduceren PC Agent-E, een efficiënt trainingsraamwerk voor agenten dat de afhankelijkheid van grootschalige menselijke demonstraties aanzienlijk vermindert. Beginnend met slechts 312 door mensen geannoteerde computergebruikstrajecten, hebben we de kwaliteit van de gegevens verder verbeterd door diverse actiebeslissingen te synthetiseren met Claude 3.7 Sonnet. Getraind op deze verrijkte trajecten, behaalde ons PC Agent-E-model een opmerkelijke relatieve verbetering van 141%, waarmee het de sterke Claude 3.7 Sonnet met uitgebreid denken overtrof op WindowsAgentArena-V2, een verbeterde benchmark die wij ook hebben vrijgegeven. Bovendien toont PC Agent-E een sterke generaliseerbaarheid naar verschillende besturingssystemen op OSWorld. Onze bevindingen suggereren dat sterke computergebruikscapaciteiten kunnen worden gestimuleerd vanuit een kleine hoeveelheid hoogwaardige trajectgegevens.
English
Scaling up high-quality trajectory data has long been a critical bottleneck
for developing human-like computer use agents. We introduce PC Agent-E, an
efficient agent training framework that significantly reduces reliance on
large-scale human demonstrations. Starting with just 312 human-annotated
computer use trajectories, we further improved data quality by synthesizing
diverse action decisions with Claude 3.7 Sonnet. Trained on these enriched
trajectories, our PC Agent-E model achieved a remarkable 141% relative
improvement, surpassing the strong Claude 3.7 Sonnet with extended thinking on
WindowsAgentArena-V2, an improved benchmark we also released. Furthermore, PC
Agent-E demonstrates strong generalizability to different operating systems on
OSWorld. Our findings suggest that strong computer use capabilities can be
stimulated from a small amount of high-quality trajectory data.