ChatPaper.aiChatPaper

Skalierung der Computer-Nutzungsverankerung durch Benutzeroberflächenzerlegung und -synthese

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

May 19, 2025
Autoren: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI

Zusammenfassung

Die Verankerung von grafischen Benutzeroberflächen (GUI), also die Fähigkeit, natürliche Sprachbefehle auf spezifische Aktionen auf grafischen Benutzeroberflächen abzubilden, bleibt ein entscheidender Engpass in der Entwicklung von Computer-Nutzungsagenten. Aktuelle Benchmarks vereinfachen Verankerungsaufgaben als kurze Referenzausdrücke und erfassen nicht die Komplexität realer Interaktionen, die Software-Kommonsense, Layoutverständnis und fein abgestimmte Manipulationsfähigkeiten erfordern. Um diese Einschränkungen zu überwinden, führen wir OSWorld-G ein, einen umfassenden Benchmark, der 564 fein annotierte Beispiele über verschiedene Aufgabentypen hinweg umfasst, darunter Textabgleich, Elementerkennung, Layoutverständnis und präzise Manipulation. Zusätzlich synthetisieren und veröffentlichen wir den größten Datensatz zur Verankerung von Computer-Nutzung, Jedi, der durch mehrperspektivische Entkopplung von Aufgaben 4 Millionen Beispiele enthält. Unsere auf Jedi trainierten Multi-Scale-Modelle demonstrieren deren Effektivität, indem sie bestehende Ansätze auf ScreenSpot-v2, ScreenSpot-Pro und unserem OSWorld-G übertreffen. Darüber hinaus zeigen wir, dass eine verbesserte Verankerung mit Jedi direkt die agentenbasierten Fähigkeiten allgemeiner Basismodelle bei komplexen Computeraufgaben verbessert, von 5 % auf 27 % auf OSWorld. Durch detaillierte Ablationsstudien identifizieren wir Schlüsselfaktoren, die zur Verankerungsleistung beitragen, und bestätigen, dass die Kombination spezialisierter Daten für verschiedene Oberflächenelemente eine kompositionelle Generalisierung auf neue Schnittstellen ermöglicht. Alle Benchmarks, Daten, Checkpoints und Code sind quelloffen und unter https://osworld-grounding.github.io verfügbar.
English
Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

Summary

AI-Generated Summary

PDF342May 20, 2025