SEAgent: Agente de Uso de Computador de Auto-Evolução com Aprendizado Autônomo a partir da Experiência

Resumo

A reutilização de grandes modelos de visão e linguagem (LVLMs) como agentes de uso de computador (CUAs) tem levado a avanços significativos, impulsionados principalmente por dados rotulados por humanos. No entanto, esses modelos frequentemente enfrentam dificuldades com softwares novos e especializados, especialmente em cenários que carecem de anotações humanas. Para enfrentar esse desafio, propomos o SEAgent, uma estrutura agentica de auto-evolução que permite que CUAs evoluam autonomamente por meio de interações com softwares desconhecidos. Especificamente, o SEAgent capacita agentes de uso de computador a dominar autonomamente novos ambientes de software por meio de aprendizado experiencial, onde os agentes exploram novos softwares, aprendem através de tentativa e erro iterativa e abordam progressivamente tarefas auto-geradas organizadas do simples ao complexo. Para atingir esse objetivo, projetamos um Modelo de Estado do Mundo para avaliação passo a passo de trajetórias, juntamente com um Gerador de Currículo que gera tarefas cada vez mais diversas e desafiadoras. A política do agente é atualizada por meio de aprendizado experiencial, composto por imitação adversária de ações de falha e Otimização de Política Relativa de Grupo (GRPO) nas ações bem-sucedidas. Além disso, introduzimos uma estratégia de treinamento de especialista para generalista que integra insights experienciais individuais de agentes especialistas, facilitando o desenvolvimento de um CUA generalista mais forte, capaz de evolução autônoma contínua. Esse agente unificado acaba por alcançar um desempenho que supera conjuntos de agentes especialistas individuais em seus softwares especializados. Validamos a eficácia do SEAgent em cinco novos ambientes de software dentro do OS-World. Nossa abordagem alcança uma melhoria significativa de 23,2% na taxa de sucesso, de 11,3% para 34,5%, em relação a um CUA de código aberto competitivo, o UI-TARS.

English

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.

SEAgent: Agente de Uso de Computador de Auto-Evolução com Aprendizado Autônomo a partir da Experiência

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Resumo

Support