ChatPaper.aiChatPaper

SEAgent: Selbstentwickelnder Computer-Nutzungs-Agent mit autonomen Lernen aus Erfahrung

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

August 6, 2025
papers.authors: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Die Umwidmung großer Vision-Sprach-Modelle (LVLMs) zu Computer-Nutzungs-Agenten (CUAs) hat zu erheblichen Durchbrüchen geführt, die hauptsächlich durch menschlich annotierte Daten vorangetrieben wurden. Diese Modelle haben jedoch oft Schwierigkeiten mit neuartiger und spezialisierter Software, insbesondere in Szenarien, in denen menschliche Annotationen fehlen. Um diese Herausforderung zu bewältigen, schlagen wir SEAgent vor, ein agentenbasiertes, selbstentwickelndes Framework, das CUAs ermöglicht, sich autonom durch Interaktionen mit unbekannter Software weiterzuentwickeln. Konkret befähigt SEAgent Computer-Nutzungs-Agenten, neuartige Softwareumgebungen autonom durch erfahrungsbasiertes Lernen zu meistern, wobei die Agenten neue Software erkunden, durch iteratives Ausprobieren lernen und schrittweise automatisch generierte Aufgaben bewältigen, die von einfach bis komplex organisiert sind. Um dieses Ziel zu erreichen, entwerfen wir ein Weltzustandsmodell für die schrittweise Bewertung von Trajektorien sowie einen Lehrplan-Generator, der zunehmend vielfältige und herausfordernde Aufgaben erstellt. Die Policy des Agenten wird durch erfahrungsbasiertes Lernen aktualisiert, das aus der adversarischen Nachahmung von Fehlaktionen und der Gruppen-Relativen-Policy-Optimierung (GRPO) bei erfolgreichen Aktionen besteht. Darüber hinaus führen wir eine Spezialisten-zu-Generalisten-Trainingsstrategie ein, die individuelle Erfahrungserkenntnisse von Spezialistenagenten integriert und die Entwicklung eines stärkeren Generalisten-CUA ermöglicht, der sich kontinuierlich autonom weiterentwickeln kann. Dieser vereinheitlichte Agent übertrifft schließlich die Leistung von Ensembles individueller Spezialistenagenten in ihrer spezialisierten Software. Wir validieren die Wirksamkeit von SEAgent in fünf neuartigen Softwareumgebungen innerhalb von OS-World. Unser Ansatz erzielt eine signifikante Verbesserung der Erfolgsrate um 23,2 %, von 11,3 % auf 34,5 %, gegenüber einem konkurrenzfähigen Open-Source-CUA, nämlich UI-TARS.
English
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent's policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.
PDF462August 7, 2025