ChatPaper.aiChatPaper

SEAgent: Agente per l'uso del computer auto-evolutivo con apprendimento autonomo dall'esperienza

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

August 6, 2025
Autori: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI

Abstract

Il riutilizzo di grandi modelli visione-linguaggio (LVLMs) come agenti per l'uso del computer (CUAs) ha portato a progressi significativi, principalmente guidati da dati etichettati manualmente. Tuttavia, questi modelli spesso incontrano difficoltà con software nuovi e specializzati, specialmente in scenari privi di annotazioni umane. Per affrontare questa sfida, proponiamo SEAgent, un framework agentico auto-evolutivo che consente ai CUAs di evolversi autonomamente attraverso interazioni con software sconosciuti. Nello specifico, SEAgent permette agli agenti per l'uso del computer di padroneggiare autonomamente nuovi ambienti software attraverso l'apprendimento esperienziale, in cui gli agenti esplorano nuovi software, imparano tramite tentativi ed errori iterativi e affrontano progressivamente task auto-generati organizzati dal semplice al complesso. Per raggiungere questo obiettivo, progettiamo un World State Model per la valutazione passo-passo delle traiettorie, insieme a un Curriculum Generator che genera task sempre più diversificati e impegnativi. La politica dell'agente viene aggiornata attraverso l'apprendimento esperienziale, composto dall'imitazione avversaria delle azioni fallite e dall'ottimizzazione relativa delle politiche di gruppo (GRPO) su quelle riuscite. Inoltre, introduciamo una strategia di addestramento da specialista a generalista che integra le intuizioni esperienziali individuali degli agenti specialisti, facilitando lo sviluppo di un CUA generalista più forte in grado di evolversi autonomamente in modo continuo. Questo agente unificato alla fine raggiunge prestazioni superiori a quelle di ensemble di agenti specialisti individuali sui loro software specializzati. Validiamo l'efficacia di SEAgent in cinque nuovi ambienti software all'interno di OS-World. Il nostro approccio ottiene un miglioramento significativo del 23,2% nel tasso di successo, passando dall'11,3% al 34,5%, rispetto a un CUA open-source competitivo, ovvero UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.
PDF522December 16, 2025