Agent S2: Ein kompositionelles Generalist-Spezialist-Framework für Computer-Nutzungsagenten
Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents
April 1, 2025
Autoren: Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI
Zusammenfassung
Computernutzungs-Agenten automatisieren digitale Aufgaben, indem sie direkt mit grafischen Benutzeroberflächen (GUIs) auf Computern und mobilen Geräten interagieren und bieten somit ein erhebliches Potenzial, die menschliche Produktivität zu steigern, indem sie ein offenes Spektrum von Benutzeranfragen bearbeiten. Allerdings stehen aktuelle Agenten vor erheblichen Herausforderungen: ungenaue Verankerung von GUI-Elementen, Schwierigkeiten bei der langfristigen Aufgabenplanung und Leistungsengpässe durch die Abhängigkeit von einzelnen Generalistenmodellen für diverse kognitive Aufgaben. Zu diesem Zweck stellen wir Agent S2 vor, ein neuartiges kompositionelles Framework, das kognitive Verantwortlichkeiten auf verschiedene Generalisten- und Spezialistenmodelle verteilt. Wir schlagen eine neuartige Mixture-of-Grounding-Technik vor, um eine präzise GUI-Lokalisierung zu erreichen, und führen Proaktive Hierarchische Planung ein, die Aktionspläne auf mehreren zeitlichen Ebenen dynamisch verfeinert, um sich an sich entwickelnde Beobachtungen anzupassen. Evaluierungen zeigen, dass Agent S2 eine neue Bestleistung (State-of-the-Art, SOTA) auf drei prominenten Computernutzungs-Benchmarks erreicht. Insbesondere erzielt Agent S2 relative Verbesserungen von 18,9 % und 32,7 % gegenüber führenden Baseline-Agenten wie Claude Computer Use und UI-TARS bei der 15-Schritt- und 50-Schritt-Evaluierung von OSWorld. Darüber hinaus generalisiert Agent S2 effektiv auf andere Betriebssysteme und Anwendungen und übertrifft die bisher besten Methoden um 52,8 % auf WindowsAgentArena und um 16,52 % auf AndroidWorld. Der Code ist verfügbar unter https://github.com/simular-ai/Agent-S.
English
Computer use agents automate digital tasks by directly interacting with
graphical user interfaces (GUIs) on computers and mobile devices, offering
significant potential to enhance human productivity by completing an open-ended
space of user queries. However, current agents face significant challenges:
imprecise grounding of GUI elements, difficulties with long-horizon task
planning, and performance bottlenecks from relying on single generalist models
for diverse cognitive tasks. To this end, we introduce Agent S2, a novel
compositional framework that delegates cognitive responsibilities across
various generalist and specialist models. We propose a novel
Mixture-of-Grounding technique to achieve precise GUI localization and
introduce Proactive Hierarchical Planning, dynamically refining action plans at
multiple temporal scales in response to evolving observations. Evaluations
demonstrate that Agent S2 establishes new state-of-the-art (SOTA) performance
on three prominent computer use benchmarks. Specifically, Agent S2 achieves
18.9% and 32.7% relative improvements over leading baseline agents such as
Claude Computer Use and UI-TARS on the OSWorld 15-step and 50-step evaluation.
Moreover, Agent S2 generalizes effectively to other operating systems and
applications, surpassing previous best methods by 52.8% on WindowsAgentArena
and by 16.52% on AndroidWorld relatively. Code available at
https://github.com/simular-ai/Agent-S.Summary
AI-Generated Summary