OmegaUse: Ontwikkeling van een Algemeen GUI-Agent voor Autonome Taakuitvoering

Samenvatting

Grafische gebruikersinterface (GUI)-agenten tonen groot potentieel om foundation-modellen in staat te stellen real-world taken uit te voeren, wat een revolutie teweegbrengt in mens-computerinteractie en de menselijke productiviteit verbetert. In dit rapport presenteren we OmegaUse, een algemeen GUI-agentmodel voor autonome taakuitvoering op zowel mobiele als desktopplatforms, dat computergebruik- en telefoongebruikscenario's ondersteunt. Het bouwen van een effectief GUI-agentmodel steunt op twee factoren: (1) hoogwaardige data en (2) effectieve trainingsmethoden. Om deze aan te pakken, introduceren we een zorgvuldig ontworpen data-constructiepijplijn en een ontkoppeld trainingsparadigma. Voor dataconstructie benutten we rigoureus samengestelde open-source datasets en introduceren we een nieuw geautomatiseerd syntheseframework dat bottom-up autonome exploratie integreert met top-down taxonomie-gestuurde generatie om hoogwaardige synthetische data te creëren. Voor training hanteren we, om deze data beter te benutten, een tweefasenstrategie: Supervised Fine-Tuning (SFT) om fundamentele interactiesyntaxis vast te leggen, gevolgd door Group Relative Policy Optimization (GRPO) om ruimtelijke verankering en sequentiële planning te verbeteren. Om computationele efficiëntie te balanceren met agent-redeneercapaciteit, is OmegaUse gebouwd op een Mixture-of-Experts (MoE)-backbone. Om cross-terminale capaciteiten offline te evalueren, introduceren we OS-Nav, een benchmark suite die meerdere besturingssystemen omvat: ChiM-Nav, gericht op Chinese Android mobiele omgevingen, en Ubu-Nav, gefocust op routine desktopinteracties op Ubuntu. Uitgebreide experimenten tonen aan dat OmegaUse zeer concurrerend presteert op gevestigde GUI-benchmarks, met een state-of-the-art (SOTA) score van 96,3% op ScreenSpot-V2 en een leidende 79,1% stap-succesratio op AndroidControl. OmegaUse presteert ook sterk op OS-Nav, met een stap-succesratio van 74,24% op ChiM-Nav en een gemiddeld succespercentage van 55,9% op Ubu-Nav.

English

Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.

OmegaUse: Ontwikkeling van een Algemeen GUI-Agent voor Autonome Taakuitvoering

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

Samenvatting

Support