OmegaUse: Entwicklung eines universellen GUI-Agenten für autonome Aufgabenausführung
OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution
January 28, 2026
papers.authors: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang
cs.AI
papers.abstract
Graphical User Interface (GUI)-Agenten zeigen großes Potenzial, um Foundation-Modelle bei der Ausführung realer Aufgaben zu unterstützen, was die Mensch-Computer-Interaktion revolutioniert und die menschliche Produktivität steigert. In diesem Bericht stellen wir OmegaUse vor, ein allgemeines GUI-Agentenmodell für die autonome Aufgabenerfüllung auf mobilen und Desktop-Plattformen, das Computer- und Telefonnutzungsszenarien unterstützt. Der Aufbau eines effektiven GUI-Agentenmodells hängt von zwei Faktoren ab: (1) hochwertigen Daten und (2) effektiven Trainingsmethoden. Um diese anzugehen, führen wir eine sorgfältig konstruierte Datenaufbaupipeline und ein entkoppeltes Trainingsparadigma ein. Für den Datenaufbau nutzen wir streng kuratierte Open-Source-Datensätze und stellen ein neuartiges automatisches Syntheseframework vor, das bottom-up autonome Exploration mit top-down taxonomiegesteuerter Generierung kombiniert, um hochwertige synthetische Daten zu erzeugen. Für das Training verwenden wir eine Zwei-Phasen-Strategie: Supervised Fine-Tuning (SFT) zur Etablierung grundlegender Interaktionssyntax, gefolgt von Group Relative Policy Optimization (GRPO) zur Verbesserung räumlicher Verankerung und sequenzieller Planung. Um Recheneffizienz mit agentenbasierter Reasoning-Kapazität in Einklang zu bringen, basiert OmegaUse auf einem Mixture-of-Experts (MoE)-Grundgerüst. Zur Bewertung plattformübergreifender Fähigkeiten in einer Offline-Umgebung führen wir OS-Nav ein, eine Benchmark-Suite über mehrere Betriebssysteme: ChiM-Nav für chinesische Android-Mobilumgebungen und Ubu-Nav für routinemäßige Desktop-Interaktionen unter Ubuntu. Umfangreiche Experimente zeigen, dass OmegaUse auf etablierten GUI-Benchmarks äußerst wettbewerbsfähig ist, mit einem state-of-the-art (SOTA)-Wert von 96,3 % auf ScreenSpot-V2 und einer führenden Schritt-Erfolgsrate von 79,1 % auf AndroidControl. OmegaUse schneidet auch auf OS-Nav stark ab, mit 74,24 % Schritt-Erfolg auf ChiM-Nav und 55,9 % durchschnittlichem Erfolg auf Ubu-Nav.
English
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.