Scalabilità del Grounding nell'Uso del Computer tramite Decomposizione e Sintesi dell'Interfaccia Utente

Abstract

Il grounding delle interfacce grafiche (GUI), ovvero la capacità di mappare istruzioni in linguaggio naturale a specifiche azioni sulle interfacce grafiche, rimane un collo di bottiglia critico nello sviluppo di agenti per l'uso del computer. Gli attuali benchmark semplificano eccessivamente i task di grounding come brevi espressioni di riferimento, non riuscendo a catturare la complessità delle interazioni del mondo reale che richiedono senso comune software, comprensione del layout e capacità di manipolazione fine. Per affrontare queste limitazioni, introduciamo OSWorld-G, un benchmark completo che comprende 564 campioni annotati in dettaglio su diversi tipi di task, tra cui corrispondenza di testo, riconoscimento di elementi, comprensione del layout e manipolazione precisa. Inoltre, sintetizziamo e rilasciamo il più grande dataset di grounding per l'uso del computer, Jedi, che contiene 4 milioni di esempi ottenuti attraverso la decodifica multi-prospettica dei task. I nostri modelli multi-scala addestrati su Jedi ne dimostrano l'efficacia superando gli approcci esistenti su ScreenSpot-v2, ScreenSpot-Pro e il nostro OSWorld-G. Inoltre, dimostriamo che un miglior grounding con Jedi potenzia direttamente le capacità agentiche dei modelli foundation generali su task complessi al computer, migliorando dal 5% al 27% su OSWorld. Attraverso studi di ablazione dettagliati, identifichiamo i fattori chiave che contribuiscono alle prestazioni di grounding e verifichiamo che la combinazione di dati specializzati per diversi elementi dell'interfaccia consente una generalizzazione compositiva a interfacce nuove. Tutti i benchmark, i dati, i checkpoint e il codice sono open-source e disponibili su https://osworld-grounding.github.io.

English

Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

Scalabilità del Grounding nell'Uso del Computer tramite Decomposizione e Sintesi dell'Interfaccia Utente

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Abstract

Support