Масштабирование заземления использования компьютера через декомпозицию и синтез пользовательского интерфейса
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis
May 19, 2025
Авторы: Tianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong
cs.AI
Аннотация
Граундинг графического пользовательского интерфейса (GUI), способность сопоставлять инструкции на естественном языке с конкретными действиями в графических интерфейсах, остается критическим узким местом в разработке агентов для работы с компьютерами. Современные бенчмарки упрощают задачи граундинга до коротких референциальных выражений, не учитывая сложность реальных взаимодействий, которые требуют программного здравого смысла, понимания структуры интерфейса и возможностей точного манипулирования. Чтобы устранить эти ограничения, мы представляем OSWorld-G — всеобъемлющий бенчмарк, включающий 564 тщательно аннотированных примера, охватывающих различные типы задач, такие как сопоставление текста, распознавание элементов, понимание структуры и точное манипулирование. Кроме того, мы синтезируем и публикуем крупнейший набор данных для граундинга в работе с компьютерами Jedi, который содержит 4 миллиона примеров благодаря многоперспективному разделению задач. Наши многоуровневые модели, обученные на Jedi, демонстрируют свою эффективность, превосходя существующие подходы на ScreenSpot-v2, ScreenSpot-Pro и нашем OSWorld-G. Более того, мы показываем, что улучшенный граундинг с использованием Jedi напрямую повышает агентские способности общих базовых моделей на сложных компьютерных задачах, улучшая результаты с 5% до 27% на OSWorld. С помощью детальных исследований мы выявляем ключевые факторы, влияющие на производительность граундинга, и подтверждаем, что комбинирование специализированных данных для различных элементов интерфейса позволяет достичь композиционного обобщения для новых интерфейсов. Все бенчмарки, данные, контрольные точки и код открыты и доступны по адресу https://osworld-grounding.github.io.
English
Graphical user interface (GUI) grounding, the ability to map natural language
instructions to specific actions on graphical user interfaces, remains a
critical bottleneck in computer use agent development. Current benchmarks
oversimplify grounding tasks as short referring expressions, failing to capture
the complexity of real-world interactions that require software commonsense,
layout understanding, and fine-grained manipulation capabilities. To address
these limitations, we introduce OSWorld-G, a comprehensive benchmark comprising
564 finely annotated samples across diverse task types including text matching,
element recognition, layout understanding, and precise manipulation.
Additionally, we synthesize and release the largest computer use grounding
dataset Jedi, which contains 4 million examples through multi-perspective
decoupling of tasks. Our multi-scale models trained on Jedi demonstrate its
effectiveness by outperforming existing approaches on ScreenSpot-v2,
ScreenSpot-Pro, and our OSWorld-G. Furthermore, we demonstrate that improved
grounding with Jedi directly enhances agentic capabilities of general
foundation models on complex computer tasks, improving from 5% to 27% on
OSWorld. Through detailed ablation studies, we identify key factors
contributing to grounding performance and verify that combining specialized
data for different interface elements enables compositional generalization to
novel interfaces. All benchmark, data, checkpoints, and code are open-sourced
and available at https://osworld-grounding.github.io.Summary
AI-Generated Summary