OmegaUse: Создание универсального GUI-агента для автономного выполнения задач
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
January 28, 2026
Авторы: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang
cs.AI
Аннотация
Агенты с графическим интерфейсом пользователя (GUI) демонстрируют значительный потенциал для выполнения реальных задач моделями-основами, революционизируя человеко-компьютерное взаимодействие и повышая производительность труда. В данном отчете мы представляем OmegaUse — универсальную модель GUI-агента для автономного выполнения задач на мобильных и настольных платформах, поддерживающую сценарии работы с компьютером и телефоном. Создание эффективной модели GUI-агента зависит от двух факторов: (1) высококачественных данных и (2) эффективных методов обучения. Для их решения мы предлагаем тщательно разработанный конвейер построения данных и развязанную парадигму обучения. Для построения данных мы используем тщательно отобранные открытые наборы данных и представляем новую автоматизированную систему синтеза, интегрирующую нисходящее автономное исследование с нисходящей генерацией на основе таксономии для создания синтетических данных высокой точности. В обучении, чтобы лучше использовать эти данные, мы применяем двухэтапную стратегию: контролируемую тонкую настройку (SFT) для установления базового синтаксиса взаимодействия с последующей групповой относительной оптимизацией политики (GRPO) для улучшения пространственного позиционирования и последовательного планирования. Для баланса между вычислительной эффективностью и агентскими рассуждениями OmegaUse построена на основе архитектуры смеси экспертов (MoE). Для оценки кроссплатформенных возможностей в автономном режиме мы представляем OS-Nav — набор тестов, охватывающих несколько операционных систем: ChiM-Nav для китайской мобильной среды Android и Ubu-Nav, ориентированный на рутинные взаимодействия с настольной системой Ubuntu. Масштабные эксперименты показывают, что OmegaUse демонстрирует высокую конкурентоспособность на существующих GUI-бенчмарках, достигая наилучшего результата в 96,3% на ScreenSpot-V2 и ведущего показателя успешности шагов в 79,1% на AndroidControl. OmegaUse также показывает высокие результаты на OS-Nav, достигая 74,24% успешности шагов на ChiM-Nav и 55,9% средней успешности на Ubu-Nav.
English
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.