ChatPaper.aiChatPaper

Agent S2: Een Compositioneel Generalist-Specialist Framework voor Computergebruik-Agenten

Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents

April 1, 2025
Auteurs: Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
cs.AI

Samenvatting

Computergestuurde agents automatiseren digitale taken door direct te interageren met grafische gebruikersinterfaces (GUI's) op computers en mobiele apparaten, wat aanzienlijk potentieel biedt om de menselijke productiviteit te verbeteren door een open ruimte van gebruikersvragen af te handelen. Huidige agents worden echter geconfronteerd met aanzienlijke uitdagingen: onnauwkeurige verankering van GUI-elementen, moeilijkheden bij langetermijn taakplanning en prestatieknelpunten door het vertrouwen op enkele generalistische modellen voor diverse cognitieve taken. Daarom introduceren we Agent S2, een nieuw compositioneel framework dat cognitieve verantwoordelijkheden delegeert over verschillende generalistische en specialistische modellen. We stellen een nieuwe Mixture-of-Grounding-techniek voor om nauwkeurige GUI-lokalisatie te bereiken en introduceren Proactieve Hiërarchische Planning, die actieplannen dynamisch verfijnt op meerdere temporele schalen in reactie op evoluerende observaties. Evaluaties tonen aan dat Agent S2 nieuwe state-of-the-art (SOTA) prestaties vestigt op drie prominente benchmarks voor computergebruik. Specifiek behaalt Agent S2 relatieve verbeteringen van 18,9% en 32,7% ten opzichte van toonaangevende baseline agents zoals Claude Computer Use en UI-TARS op de OSWorld 15-stappen en 50-stappen evaluatie. Bovendien generaliseert Agent S2 effectief naar andere besturingssystemen en applicaties, en overtreft het eerdere beste methoden met 52,8% op WindowsAgentArena en met 16,52% op AndroidWorld relatief. Code beschikbaar op https://github.com/simular-ai/Agent-S.
English
Computer use agents automate digital tasks by directly interacting with graphical user interfaces (GUIs) on computers and mobile devices, offering significant potential to enhance human productivity by completing an open-ended space of user queries. However, current agents face significant challenges: imprecise grounding of GUI elements, difficulties with long-horizon task planning, and performance bottlenecks from relying on single generalist models for diverse cognitive tasks. To this end, we introduce Agent S2, a novel compositional framework that delegates cognitive responsibilities across various generalist and specialist models. We propose a novel Mixture-of-Grounding technique to achieve precise GUI localization and introduce Proactive Hierarchical Planning, dynamically refining action plans at multiple temporal scales in response to evolving observations. Evaluations demonstrate that Agent S2 establishes new state-of-the-art (SOTA) performance on three prominent computer use benchmarks. Specifically, Agent S2 achieves 18.9% and 32.7% relative improvements over leading baseline agents such as Claude Computer Use and UI-TARS on the OSWorld 15-step and 50-step evaluation. Moreover, Agent S2 generalizes effectively to other operating systems and applications, surpassing previous best methods by 52.8% on WindowsAgentArena and by 16.52% on AndroidWorld relatively. Code available at https://github.com/simular-ai/Agent-S.

Summary

AI-Generated Summary

PDF212April 2, 2025