ChatPaper.aiChatPaper

오메가유즈: 자율적 작업 실행을 위한 범용 GUI 에이전트 구축

OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

January 28, 2026
저자: Le Zhang, Yixiong Xiao, Xinjiang Lu, Jingjia Cao, Yusai Zhao, Jingbo Zhou, Lang An, Zikan Feng, Wanxiang Sha, Yu Shi, Congxi Xiao, Jian Xiong, Yankai Zhang, Hua Wu, Haifeng Wang
cs.AI

초록

그래픽 사용자 인터페이스(GUI) 에이전트는 파운데이션 모델이 현실 세계의 작업을 수행할 수 있도록 함으로써 인간-컴퓨터 상호작용에 혁신을 가져오고 인간의 생산성을 향상시킬 큰 잠재력을 보여줍니다. 본 보고서에서는 컴퓨터 사용과 휴대폰 사용 시나리오를 모두 지원하며, 모바일 및 데스크톱 플랫폼에서 자율적인 작업 실행을 위한 범용 GUI 에이전트 모델인 OmegaUse를 소개합니다. 효과적인 GUI 에이전트 모델 구축은 (1) 고품질 데이터와 (2) 효과적인 훈련 방법이라는 두 가지 요소에 의존합니다. 이를 해결하기 위해 저희는 정교하게 설계된 데이터 구축 파이프라인과 분리된 훈련 패러다임을 도입합니다. 데이터 구축을 위해 저희는 엄격하게 선별된 오픈소스 데이터셋을 활용하고, 하향식 분류 체계 기반 생성과 상향식 자율 탐색을 통합하여 높은 정확도의 합성 데이터를 생성하는 새로운 자동화된 합성 프레임워크를 소개합니다. 훈련 측면에서는 이러한 데이터를 더 잘 활용하기 위해 두 단계 전략을 채택합니다: 기본적인 상호작용 구문을 확립하는 지도 미세 조정(SFT) 단계와 공간 기반 및 순차적 계획 능력을 향상시키는 그룹 상대 정책 최적화(GRPO) 단계입니다. 계산 효율성과 에이전트 추론 능력 사이의 균형을 맞추기 위해 OmegaUse는 MoE(Mixture-of-Experts) 백본을 기반으로 구축되었습니다. 오프라인 환경에서의 크로스 플랫폼 능력을 평가하기 위해 여러 운영 체제를 아우르는 벤치마크 제품군인 OS-Nav를 도입했습니다. 여기에는 중국어 안드로이드 모바일 환경을 대상으로 하는 ChiM-Nav와 Ubuntu에서의 일상적인 데스크톱 상호작용에 초점을 맞춘 Ubu-Nav가 포함됩니다. 대규모 실험 결과, OmegaUse는 기존 GUI 벤치마크에서 매우 경쟁력 있는 성능을 보였으며, ScreenSpot-V2에서 96.3%의 SOTA(State-of-the-Art) 점수, AndroidControl에서 79.1%의 선도적인 단계 성공률을 달성했습니다. 또한 OmegaUse는 OS-Nav에서도 강력한 성능을 보여 ChiM-Nav에서 74.24%의 단계 성공률, Ubu-Nav에서 55.9%의 평균 성공률을 기록했습니다.
English
Graphical User Interface (GUI) agents show great potential for enabling foundation models to complete real-world tasks, revolutionizing human-computer interaction and improving human productivity. In this report, we present OmegaUse, a general-purpose GUI agent model for autonomous task execution on both mobile and desktop platforms, supporting computer-use and phone-use scenarios. Building an effective GUI agent model relies on two factors: (1) high-quality data and (2) effective training methods. To address these, we introduce a carefully engineered data-construction pipeline and a decoupled training paradigm. For data construction, we leverage rigorously curated open-source datasets and introduce a novel automated synthesis framework that integrates bottom-up autonomous exploration with top-down taxonomy-guided generation to create high-fidelity synthetic data. For training, to better leverage these data, we adopt a two-stage strategy: Supervised Fine-Tuning (SFT) to establish fundamental interaction syntax, followed by Group Relative Policy Optimization (GRPO) to improve spatial grounding and sequential planning. To balance computational efficiency with agentic reasoning capacity, OmegaUse is built on a Mixture-of-Experts (MoE) backbone. To evaluate cross-terminal capabilities in an offline setting, we introduce OS-Nav, a benchmark suite spanning multiple operating systems: ChiM-Nav, targeting Chinese Android mobile environments, and Ubu-Nav, focusing on routine desktop interactions on Ubuntu. Extensive experiments show that OmegaUse is highly competitive across established GUI benchmarks, achieving a state-of-the-art (SOTA) score of 96.3% on ScreenSpot-V2 and a leading 79.1% step success rate on AndroidControl. OmegaUse also performs strongly on OS-Nav, reaching 74.24% step success on ChiM-Nav and 55.9% average success on Ubu-Nav.
PDF82February 8, 2026