SEAgent: Zelf-evoluerend computergebruiksagent met autonoom leren uit ervaring
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
August 6, 2025
Auteurs: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Het hergebruiken van grote visie-taalmodellen (LVLMs) als computergebruiksagenten (CUAs) heeft aanzienlijke doorbraken opgeleverd, voornamelijk gedreven door door mensen gelabelde data. Deze modellen hebben echter vaak moeite met nieuwe en gespecialiseerde software, vooral in scenario's zonder menselijke annotaties. Om deze uitdaging aan te pakken, stellen we SEAgent voor, een zelf-evoluerend agentisch raamwerk dat CUAs in staat stelt om autonoom te evolueren door interacties met onbekende software. Specifiek stelt SEAgent computergebruiksagenten in staat om autonoom nieuwe softwareomgevingen te beheersen via ervaringsgericht leren, waarbij agenten nieuwe software verkennen, leren door iteratieve trial-and-error, en geleidelijk aan automatisch gegenereerde taken aanpakken die van eenvoudig naar complex zijn georganiseerd. Om dit doel te bereiken, ontwerpen we een World State Model voor stapsgewijze trajectbeoordeling, samen met een Curriculum Generator die steeds diversere en uitdagendere taken genereert. Het beleid van de agent wordt bijgewerkt via ervaringsgericht leren, bestaande uit adversariale imitatie van mislukte acties en Group Relative Policy Optimization (GRPO) op succesvolle acties. Bovendien introduceren we een specialist-naar-generalist trainingsstrategie die individuele ervaringsinzichten van specialistische agenten integreert, wat de ontwikkeling van een sterkere generalistische CUA mogelijk maakt die in staat is tot continue autonome evolutie. Deze verenigde agent overtreft uiteindelijk de prestaties van ensembles van individuele specialistische agenten op hun gespecialiseerde software. We valideren de effectiviteit van SEAgent in vijf nieuwe softwareomgevingen binnen OS-World. Onze aanpak behaalt een significante verbetering van 23,2% in slagingspercentage, van 11,3% naar 34,5%, ten opzichte van een competitieve open-source CUA, namelijk UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents
(CUAs) has led to substantial breakthroughs, primarily driven by human-labeled
data. However, these models often struggle with novel and specialized software,
particularly in scenarios lacking human annotations. To address this challenge,
we propose SEAgent, an agentic self-evolving framework enabling CUAs to
autonomously evolve through interactions with unfamiliar software.
Specifically, SEAgent empowers computer-use agents to autonomously master novel
software environments via experiential learning, where agents explore new
software, learn through iterative trial-and-error, and progressively tackle
auto-generated tasks organized from simple to complex. To achieve this goal, we
design a World State Model for step-wise trajectory assessment, along with a
Curriculum Generator that generates increasingly diverse and challenging tasks.
The agent's policy is updated through experiential learning, comprised of
adversarial imitation of failure actions and Group Relative Policy Optimization
(GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist
training strategy that integrates individual experiential insights from
specialist agents, facilitating the development of a stronger generalist CUA
capable of continuous autonomous evolution. This unified agent ultimately
achieves performance surpassing ensembles of individual specialist agents on
their specialized software. We validate the effectiveness of SEAgent across
five novel software environments within OS-World. Our approach achieves a
significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a
competitive open-source CUA, i.e., UI-TARS.