ChatPaper.aiChatPaper

Schalen van Computergebruik-Gronding via Ontleding en Synthese van Gebruikersinterfaces

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

May 19, 2025
Auteurs: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI

Samenvatting

Gebruikersinterface-gronding (GUI-gronding), het vermogen om natuurlijke taal instructies te koppelen aan specifieke acties op grafische gebruikersinterfaces, blijft een kritieke bottleneck in de ontwikkeling van computergebruik-agenten. Huidige benchmarks vereenvoudigen grondingstaken tot korte verwijzingen, waardoor de complexiteit van real-world interacties die software commonsense, lay-outbegrip en fijnmazige manipulatiewaarden vereisen, niet wordt vastgelegd. Om deze beperkingen aan te pakken, introduceren we OSWorld-G, een uitgebreide benchmark bestaande uit 564 nauwkeurig geannoteerde voorbeelden over diverse taaktypen, waaronder tekstmatching, elementherkenning, lay-outbegrip en precieze manipulatie. Daarnaast synthetiseren en publiceren we de grootste dataset voor computergebruik-gronding, Jedi, die 4 miljoen voorbeelden bevat door middel van multi-perspectief ontkoppeling van taken. Onze multi-schaalmodellen getraind op Jedi tonen de effectiviteit aan door bestaande benaderingen te overtreffen op ScreenSpot-v2, ScreenSpot-Pro en onze OSWorld-G. Verder laten we zien dat verbeterde gronding met Jedi direct de agentische capaciteiten van algemene foundation-modellen verbetert bij complexe computertaken, met een verbetering van 5% naar 27% op OSWorld. Door gedetailleerde ablatiestudies identificeren we sleutelfactoren die bijdragen aan grondingsprestaties en verifiëren we dat het combineren van gespecialiseerde data voor verschillende interface-elementen compositorische generalisatie naar nieuwe interfaces mogelijk maakt. Alle benchmarks, data, checkpoints en code zijn open-source en beschikbaar op https://osworld-grounding.github.io.
English
Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

Summary

AI-Generated Summary

PDF402May 20, 2025