ChatPaper.aiChatPaper

SEAgent: Agente de uso informático de auto-evolución con aprendizaje autónomo a partir de la experiencia

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

August 6, 2025
Autores: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI

Resumen

La reutilización de grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) como agentes de uso informático (CUAs, por sus siglas en inglés) ha llevado a avances significativos, impulsados principalmente por datos etiquetados por humanos. Sin embargo, estos modelos suelen tener dificultades con software novedoso y especializado, especialmente en escenarios que carecen de anotaciones humanas. Para abordar este desafío, proponemos SEAgent, un marco de auto-evolución agentico que permite a los CUAs evolucionar de manera autónoma a través de interacciones con software desconocido. Específicamente, SEAgent capacita a los agentes de uso informático para dominar autónomamente entornos de software novedosos mediante el aprendizaje experiencial, donde los agentes exploran nuevo software, aprenden a través de un proceso iterativo de prueba y error, y abordan progresivamente tareas generadas automáticamente organizadas de simple a complejas. Para lograr este objetivo, diseñamos un Modelo de Estado del Mundo para la evaluación paso a paso de trayectorias, junto con un Generador de Plan de Estudios que produce tareas cada vez más diversas y desafiantes. La política del agente se actualiza mediante el aprendizaje experiencial, compuesto por la imitación adversaria de acciones fallidas y la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) sobre las acciones exitosas. Además, introducimos una estrategia de entrenamiento de especialista a generalista que integra conocimientos experienciales individuales de agentes especialistas, facilitando el desarrollo de un CUA generalista más fuerte capaz de una evolución autónoma continua. Este agente unificado finalmente logra un rendimiento que supera al de conjuntos de agentes especialistas individuales en su software especializado. Validamos la efectividad de SEAgent en cinco entornos de software novedosos dentro de OS-World. Nuestro enfoque logra una mejora significativa del 23.2% en la tasa de éxito, pasando del 11.3% al 34.5%, sobre un CUA de código abierto competitivo, es decir, UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.
PDF462August 7, 2025