ChatPaper.aiChatPaper

SEAgent: 경험으로부터 자율 학습이 가능한 자기 진화형 컴퓨터 사용 에이전트

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

August 6, 2025
저자: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI

초록

대규모 시각-언어 모델(LVLMs)을 컴퓨터 사용 에이전트(CUAs)로 재활용하는 것은 주로 인간이 레이블링한 데이터에 의해 상당한 돌파구를 마련했습니다. 그러나 이러한 모델들은 인간의 주석이 없는 시나리오에서 특히 새로운 및 특수 소프트웨어를 다룰 때 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 SEAgent를 제안합니다. SEAgent는 컴퓨터 사용 에이전트가 익숙하지 않은 소프트웨어와의 상호작용을 통해 자율적으로 진화할 수 있도록 하는 에이전트 기반 자기 진화 프레임워크입니다. 구체적으로, SEAgent는 컴퓨터 사용 에이전트가 새로운 소프트웨어 환경을 경험적 학습을 통해 자율적으로 마스터할 수 있도록 합니다. 여기서 에이전트는 새로운 소프트웨어를 탐색하고, 반복적인 시행착오를 통해 학습하며, 점점 더 복잡해지는 자동 생성된 작업을 점진적으로 해결합니다. 이를 위해, 우리는 단계별 궤적 평가를 위한 World State Model과 점점 더 다양하고 도전적인 작업을 생성하는 Curriculum Generator를 설계했습니다. 에이전트의 정책은 실패 행동에 대한 적대적 모방과 성공한 행동에 대한 그룹 상대 정책 최적화(GRPO)로 구성된 경험적 학습을 통해 업데이트됩니다. 또한, 우리는 전문가 에이전트로부터의 개별 경험적 통찰을 통합하여 더 강력한 일반주의 CUA의 개발을 촉진하는 전문가에서 일반주의로의 훈련 전략을 도입했습니다. 이 통합 에이전트는 궁극적으로 특수 소프트웨어에서 개별 전문가 에이전트 앙상블을 능가하는 성능을 달성합니다. 우리는 SEAgent의 효과를 OS-World 내의 다섯 가지 새로운 소프트웨어 환경에서 검증했습니다. 우리의 접근 방식은 경쟁력 있는 오픈소스 CUA인 UI-TARS에 비해 성공률에서 11.3%에서 34.5%로 23.2%의 상당한 개선을 달성했습니다.
English
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.
PDF462August 7, 2025