Escalonamento da Fundamentação no Uso de Computadores por meio de Decomposição e Síntese de Interface de Usuário

Resumo

A fundamentação de interface gráfica do usuário (GUI), a capacidade de mapear instruções em linguagem natural para ações específicas em interfaces gráficas do usuário, continua sendo um gargalo crítico no desenvolvimento de agentes de uso de computador. Os benchmarks atuais simplificam demais as tarefas de fundamentação como expressões de referência curtas, falhando em capturar a complexidade das interações do mundo real que exigem senso comum de software, compreensão de layout e capacidades de manipulação refinadas. Para abordar essas limitações, introduzimos o OSWorld-G, um benchmark abrangente composto por 564 amostras minuciosamente anotadas em diversos tipos de tarefas, incluindo correspondência de texto, reconhecimento de elementos, compreensão de layout e manipulação precisa. Além disso, sintetizamos e disponibilizamos o maior conjunto de dados de fundamentação de uso de computador, Jedi, que contém 4 milhões de exemplos por meio da decupagem multiperspectiva de tarefas. Nossos modelos multiescala treinados no Jedi demonstram sua eficácia ao superar abordagens existentes no ScreenSpot-v2, ScreenSpot-Pro e nosso OSWorld-G. Adicionalmente, demonstramos que a melhoria na fundamentação com o Jedi aprimora diretamente as capacidades agentivas de modelos de base geral em tarefas complexas de computador, melhorando de 5% para 27% no OSWorld. Por meio de estudos detalhados de ablação, identificamos fatores-chave que contribuem para o desempenho de fundamentação e verificamos que a combinação de dados especializados para diferentes elementos de interface permite a generalização composicional para interfaces novas. Todos os benchmarks, dados, checkpoints e código são de código aberto e estão disponíveis em https://osworld-grounding.github.io.

English

Graphical user interface (GUI) grounding, the ability to map natural language instructions to specific actions on graphical user interfaces, remains a critical bottleneck in computer use agent development. Current benchmarks oversimplify grounding tasks as short referring expressions, failing to capture the complexity of real-world interactions that require software commonsense, layout understanding, and fine-grained manipulation capabilities. To address these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising 564 finely annotated samples across diverse task types including text matching, element recognition, layout understanding, and precise manipulation. Additionally, we synthesize and release the largest computer use grounding dataset Jedi, which contains 4 million examples through multi-perspective decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its effectiveness by outperforming existing approaches on ScreenSpot-v2, ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved grounding with Jedi directly enhances agentic capabilities of general foundation models on complex computer tasks, improving from 5% to 27% on OSWorld. Through detailed ablation studies, we identify key factors contributing to grounding performance and verify that combining specialized data for different interface elements enables compositional generalization to novel interfaces. All benchmark, data, checkpoints, and code are open-sourced and available at https://osworld-grounding.github.io.

Escalonamento da Fundamentação no Uso de Computadores por meio de Decomposição e Síntese de Interface de Usuário

Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

Resumo

Support