ChatPaper.aiChatPaper

OmegaUse: Construcción de un Agente GUI de Propósito General para la Ejecución Autónoma de Tareas

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

January 28, 2026
Autores: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang
cs.AI

Resumen

Los agentes de interfaz gráfica de usuario (GUI) muestran un gran potencial para permitir que los modelos fundacionales completen tareas del mundo real, revolucionando la interacción humano-computadora y mejorando la productividad humana. En este informe presentamos OmegaUse, un modelo de agente GUI de propósito general para la ejecución autónoma de tareas en plataformas móviles y de escritorio, compatible con escenarios de uso informático y telefónico. La construcción de un modelo de agente GUI efectivo depende de dos factores: (1) datos de alta calidad y (2) métodos de entrenamiento efectivos. Para abordarlos, introducimos una pipeline de construcción de datos cuidadosamente diseñada y un paradigma de entrenamiento desacoplado. Para la construcción de datos, aprovechamos conjuntos de datos de código abierto rigurosamente curados e introducimos un novedoso framework de síntesis automatizada que integra exploración autónoma bottom-up con generación guiada por taxonomía top-down para crear datos sintéticos de alta fidelidad. Para el entrenamiento, adoptamos una estrategia de dos etapas: Fine-Tuning Supervisado (SFT) para establecer la sintaxis de interacción fundamental, seguido de Optimización de Políticas Relativas Grupales (GRPO) para mejorar la fundamentación espacial y la planificación secuencial. Para equilibrar la eficiencia computacional con la capacidad de razonamiento agéntico, OmegaUse se construye sobre una arquitectura Mixture-of-Experts (MoE). Para evaluar las capacidades cross-terminal en un entorno offline, presentamos OS-Nav, un conjunto de benchmarks que abarca múltiples sistemas operativos: ChiM-Nav, dirigido a entornos móviles Android chinos, y Ubu-Nav, centrado en interacciones rutinarias de escritorio en Ubuntu. Experimentos exhaustivos demuestran que OmegaUse es altamente competitivo en benchmarks GUI establecidos, logrando un puntaje state-of-the-art (SOTA) del 96.3% en ScreenSpot-V2 y una tasa de éxito por paso líder del 79.1% en AndroidControl. OmegaUse también muestra un rendimiento sólido en OS-Nav, alcanzando un 74.24% de éxito por paso en ChiM-Nav y un 55.9% de éxito promedio en Ubu-Nav.
English
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.
PDF42January 30, 2026