SEAgent: Zelf-evoluerend computergebruiksagent met autonoom leren uit ervaring

Samenvatting

Het hergebruiken van grote visie-taalmodellen (LVLMs) als computergebruiksagenten (CUAs) heeft aanzienlijke doorbraken opgeleverd, voornamelijk gedreven door door mensen gelabelde data. Deze modellen hebben echter vaak moeite met nieuwe en gespecialiseerde software, vooral in scenario's zonder menselijke annotaties. Om deze uitdaging aan te pakken, stellen we SEAgent voor, een zelf-evoluerend agentisch raamwerk dat CUAs in staat stelt om autonoom te evolueren door interacties met onbekende software. Specifiek stelt SEAgent computergebruiksagenten in staat om autonoom nieuwe softwareomgevingen te beheersen via ervaringsgericht leren, waarbij agenten nieuwe software verkennen, leren door iteratieve trial-and-error, en geleidelijk aan automatisch gegenereerde taken aanpakken die van eenvoudig naar complex zijn georganiseerd. Om dit doel te bereiken, ontwerpen we een World State Model voor stapsgewijze trajectbeoordeling, samen met een Curriculum Generator die steeds diversere en uitdagendere taken genereert. Het beleid van de agent wordt bijgewerkt via ervaringsgericht leren, bestaande uit adversariale imitatie van mislukte acties en Group Relative Policy Optimization (GRPO) op succesvolle acties. Bovendien introduceren we een specialist-naar-generalist trainingsstrategie die individuele ervaringsinzichten van specialistische agenten integreert, wat de ontwikkeling van een sterkere generalistische CUA mogelijk maakt die in staat is tot continue autonome evolutie. Deze verenigde agent overtreft uiteindelijk de prestaties van ensembles van individuele specialistische agenten op hun gespecialiseerde software. We valideren de effectiviteit van SEAgent in vijf nieuwe softwareomgevingen binnen OS-World. Onze aanpak behaalt een significante verbetering van 23,2% in slagingspercentage, van 11,3% naar 34,5%, ten opzichte van een competitieve open-source CUA, namelijk UI-TARS.

English

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.

SEAgent: Zelf-evoluerend computergebruiksagent met autonoom leren uit ervaring

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Samenvatting

Support