SEAgent : Agent d'utilisation informatique auto-évolutif avec apprentissage autonome à partir de l'expérience
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
August 6, 2025
papers.authors: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI
papers.abstract
Le réemploi des grands modèles vision-langage (LVLMs) en tant qu'agents d'utilisation informatique (CUAs) a conduit à des avancées majeures, principalement alimentées par des données annotées manuellement. Cependant, ces modèles rencontrent souvent des difficultés avec des logiciels nouveaux et spécialisés, en particulier dans des scénarios dépourvus d'annotations humaines. Pour relever ce défi, nous proposons SEAgent, un cadre agentique auto-évolutif permettant aux CUAs d'évoluer de manière autonome grâce à des interactions avec des logiciels inconnus. Plus précisément, SEAgent habilite les agents d'utilisation informatique à maîtriser de manière autonome de nouveaux environnements logiciels via l'apprentissage expérientiel, où les agents explorent de nouveaux logiciels, apprennent par essais et erreurs itératifs, et abordent progressivement des tâches auto-générées organisées du simple au complexe. Pour atteindre cet objectif, nous concevons un modèle d'état du monde pour l'évaluation pas à pas des trajectoires, ainsi qu'un générateur de curriculum qui produit des tâches de plus en plus diversifiées et complexes. La politique de l'agent est mise à jour par l'apprentissage expérientiel, comprenant l'imitation adverse des actions d'échec et l'optimisation relative de politique de groupe (GRPO) sur les actions réussies. De plus, nous introduisons une stratégie de formation spécialiste-généraliste qui intègre les insights expérientiels individuels des agents spécialistes, facilitant le développement d'un CUA généraliste plus robuste capable d'une évolution autonome continue. Cet agent unifié finit par surpasser les performances d'ensembles d'agents spécialistes individuels sur leurs logiciels spécialisés. Nous validons l'efficacité de SEAgent dans cinq environnements logiciels nouveaux au sein d'OS-World. Notre approche réalise une amélioration significative de 23,2 % du taux de réussite, passant de 11,3 % à 34,5 %, par rapport à un CUA open-source concurrent, à savoir UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents
(CUAs) has led to substantial breakthroughs, primarily driven by human-labeled
data. However, these models often struggle with novel and specialized software,
particularly in scenarios lacking human annotations. To address this challenge,
we propose SEAgent, an agentic self-evolving framework enabling CUAs to
autonomously evolve through interactions with unfamiliar software.
Specifically, SEAgent empowers computer-use agents to autonomously master novel
software environments via experiential learning, where agents explore new
software, learn through iterative trial-and-error, and progressively tackle
auto-generated tasks organized from simple to complex. To achieve this goal, we
design a World State Model for step-wise trajectory assessment, along with a
Curriculum Generator that generates increasingly diverse and challenging tasks.
The agent's policy is updated through experiential learning, comprised of
adversarial imitation of failure actions and Group Relative Policy Optimization
(GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist
training strategy that integrates individual experiential insights from
specialist agents, facilitating the development of a stronger generalist CUA
capable of continuous autonomous evolution. This unified agent ultimately
achieves performance surpassing ensembles of individual specialist agents on
their specialized software. We validate the effectiveness of SEAgent across
five novel software environments within OS-World. Our approach achieves a
significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a
competitive open-source CUA, i.e., UI-TARS.