ChatPaper.aiChatPaper

Mise à l'échelle de la mise à la terre de l'utilisation des ordinateurs via la décomposition et la synthèse de l'interface utilisateur

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

May 19, 2025
Auteurs: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI

Résumé

L'ancrage des interfaces graphiques (GUI), c'est-à-dire la capacité à associer des instructions en langage naturel à des actions spécifiques sur des interfaces graphiques, reste un goulot d'étranglement critique dans le développement d'agents informatiques. Les benchmarks actuels simplifient excessivement les tâches d'ancrage en les réduisant à de courtes expressions référentielles, ne parvenant pas à capturer la complexité des interactions réelles qui nécessitent un sens commun logiciel, une compréhension de la disposition et des capacités de manipulation fine. Pour répondre à ces limites, nous introduisons OSWorld-G, un benchmark complet comprenant 564 échantillons finement annotés couvrant divers types de tâches, notamment la correspondance de texte, la reconnaissance d'éléments, la compréhension de la disposition et la manipulation précise. De plus, nous synthétisons et publions le plus grand ensemble de données d'ancrage informatique, Jedi, qui contient 4 millions d'exemples grâce à un découplage multi-perspectives des tâches. Nos modèles multi-échelles entraînés sur Jedi démontrent leur efficacité en surpassant les approches existantes sur ScreenSpot-v2, ScreenSpot-Pro et notre OSWorld-G. Par ailleurs, nous montrons qu'une amélioration de l'ancrage avec Jedi améliore directement les capacités agentielles des modèles de fondation généraux sur des tâches informatiques complexes, passant de 5 % à 27 % sur OSWorld. Grâce à des études d'ablation détaillées, nous identifions les facteurs clés contribuant à la performance d'ancrage et vérifions que la combinaison de données spécialisées pour différents éléments d'interface permet une généralisation compositionnelle à de nouvelles interfaces. Tous les benchmarks, données, points de contrôle et codes sont open-source et disponibles à l'adresse https://osworld-grounding.github.io.
English
Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

Summary

AI-Generated Summary

PDF342May 20, 2025