ChatPaper.aiChatPaper

OmegaUse : Développement d'un agent GUI universel pour l'exécution autonome de tâches

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

January 28, 2026
papers.authors: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang
cs.AI

papers.abstract

Les agents d'interface graphique (GUI) présentent un potentiel considérable pour permettre aux modèles de fondation d'accomplir des tâches du monde réel, révolutionnant l'interaction homme-machine et améliorant la productivité humaine. Dans ce rapport, nous présentons OmegaUse, un modèle d'agent GUI polyvalent pour l'exécution autonome de tâches sur les plateformes mobiles et de bureau, prenant en charge les scénarios d'utilisation d'ordinateur et de téléphone. La construction d'un modèle d'agent GUI efficace repose sur deux facteurs : (1) des données de haute qualité et (2) des méthodes d'entraînement efficaces. Pour y répondre, nous introduisons un pipeline de construction de données soigneusement conçu et un paradigme d'entraînement découplé. Pour la construction des données, nous exploitons des ensembles de données open-source rigoureusement organisés et introduisons un nouveau cadre de synthèse automatisée qui intègre une exploration autonome ascendante avec une génération guidée par une taxonomie descendante pour créer des données synthétiques de haute fidélité. Pour l'entraînement, afin de mieux exploiter ces données, nous adoptons une stratégie en deux étapes : le Fine-Tuning Supervisé (SFT) pour établir la syntaxe d'interaction fondamentale, suivi par l'Optimisation de Politique Relative par Groupe (GRPO) pour améliorer l'ancrage spatial et la planification séquentielle. Pour équilibrer l'efficacité computationnelle avec la capacité de raisonnement agentique, OmegaUse est construit sur une architecture de Mélange d'Experts (MoE). Pour évaluer les capacités cross-terminal en mode hors ligne, nous introduisons OS-Nav, une suite de benchmarks couvrant plusieurs systèmes d'exploitation : ChiM-Nav, ciblant les environnements mobiles Android chinois, et Ubu-Nav, axé sur les interactions de bureau courantes sous Ubuntu. Des expériences approfondies montrent qu'OmegaUse est très compétitif sur les benchmarks GUI établis, atteignant un score state-of-the-art (SOTA) de 96,3% sur ScreenSpot-V2 et un taux de réussite par étape leader de 79,1% sur AndroidControl. OmegaUse performe également fortement sur OS-Nav, atteignant 74,24% de réussite par étape sur ChiM-Nav et 55,9% de succès moyen sur Ubu-Nav.
English
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.
PDF42January 30, 2026