OmegaUse: Construindo um Agente de Interface Gráfica de Propósito Geral para Execução Autônoma de Tarefas

Resumo

Os agentes de Interface Gráfica de Utilizador (GUI) demonstram grande potencial para permitir que modelos de base realizem tarefas do mundo real, revolucionando a interação homem-computador e aumentando a produtividade humana. Neste relatório, apresentamos o OmegaUse, um modelo de agente de GUI de propósito geral para execução autónoma de tarefas em plataformas móveis e de desktop, suportando cenários de uso em computador e telemóvel. A construção de um modelo de agente de GUI eficaz assenta em dois fatores: (1) dados de alta qualidade e (2) métodos de treino eficazes. Para os abordar, introduzimos um pipeline de construção de dados cuidadosamente elaborado e um paradigma de treino desacoplado. Para a construção de dados, aproveitamos conjuntos de dados de código aberto rigorosamente curados e introduzimos uma nova estrutura de síntese automatizada que integra uma exploração autónoma *bottom-up* com uma geração guiada por taxonomia *top-down* para criar dados sintéticos de alta fidelidade. Para o treino, de modo a aproveitar melhor estes dados, adotamos uma estratégia em duas fases: *Fine-Tuning* Supervisionado (SFT) para estabelecer a sintaxe de interação fundamental, seguido pela Otimização de Política Relativa de Grupo (GRPO) para melhorar o enraizamento espacial e o planeamento sequencial. Para equilibrar a eficiência computacional com a capacidade de raciocínio do agente, o OmegaUse é construído sobre uma arquitetura *Mixture-of-Experts* (MoE). Para avaliar as capacidades de terminais cruzados num ambiente offline, introduzimos o OS-Nav, um conjunto de *benchmarks* que abrange múltiplos sistemas operativos: ChiM-Nav, direcionado para ambientes móveis Android chineses, e Ubu-Nav, focado em interações de desktop rotineiras no Ubuntu. Experiências extensivas mostram que o OmegaUse é altamente competitivo em *benchmarks* de GUI estabelecidos, alcançando uma pontuação de última geração (SOTA) de 96,3% no ScreenSpot-V2 e uma taxa de sucesso por passo líder de 79,1% no AndroidControl. O OmegaUse também tem um desempenho forte no OS-Nav, atingindo 74,24% de sucesso por passo no ChiM-Nav e 55,9% de sucesso médio no Ubu-Nav.

English

Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.