Escalado del Anclaje del Uso de Computadoras mediante Descomposición y Síntesis de la Interfaz de Usuario
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
May 19, 2025
Autores: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI
Resumen
La fundamentación de interfaces gráficas de usuario (GUI), la capacidad de mapear instrucciones en lenguaje natural a acciones específicas en interfaces gráficas de usuario, sigue siendo un cuello de botella crítico en el desarrollo de agentes de uso informático. Los puntos de referencia actuales simplifican en exceso las tareas de fundamentación como expresiones referenciales cortas, sin capturar la complejidad de las interacciones del mundo real que requieren sentido común de software, comprensión de diseño y capacidades de manipulación de grano fino. Para abordar estas limitaciones, presentamos OSWorld-G, un punto de referencia integral que comprende 564 muestras finamente anotadas en diversos tipos de tareas, incluyendo coincidencia de texto, reconocimiento de elementos, comprensión de diseño y manipulación precisa. Además, sintetizamos y publicamos el mayor conjunto de datos de fundamentación de uso informático, Jedi, que contiene 4 millones de ejemplos a través del desacoplamiento multiperspectiva de tareas. Nuestros modelos multiescala entrenados en Jedi demuestran su efectividad al superar los enfoques existentes en ScreenSpot-v2, ScreenSpot-Pro y nuestro OSWorld-G. Además, demostramos que una mejor fundamentación con Jedi mejora directamente las capacidades agentivas de los modelos fundacionales generales en tareas informáticas complejas, mejorando del 5% al 27% en OSWorld. A través de estudios de ablación detallados, identificamos los factores clave que contribuyen al rendimiento de la fundamentación y verificamos que la combinación de datos especializados para diferentes elementos de la interfaz permite la generalización composicional a interfaces novedosas. Todos los puntos de referencia, datos, puntos de control y código son de código abierto y están disponibles en https://osworld-grounding.github.io.
English
Graphical user interface (GUI) grounding, the ability to map natural language
instructions to specific actions on graphical user interfaces, remains a
critical bottleneck in computer use agent development. Current benchmarks
oversimplify grounding tasks as short referring expressions, failing to capture
the complexity of real-world interactions that require software commonsense,
layout understanding, and fine-grained manipulation capabilities. To address
these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising
564 finely annotated samples across diverse task types including text matching,
element recognition, layout understanding, and precise manipulation.
Additionally, we synthesize and release the largest computer use grounding
dataset Jedi, which contains 4 million examples through multi-perspective
decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its
effectiveness by outperforming existing approaches on ScreenSpot-v2,
ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved
grounding with Jedi directly enhances agentic capabilities of general
foundation models on complex computer tasks, improving from 5% to 27% on
OSWorld. Through detailed ablation studies, we identify key factors
contributing to grounding performance and verify that combining specialized
data for different interface elements enables compositional generalization to
novel interfaces. All benchmark, data, checkpoints, and code are open-sourced
and available at https://osworld-grounding.github.io.Summary
AI-Generated Summary