UltraCUA: 하이브리드 액션을 갖춘 컴퓨터 사용 에이전트를 위한 기초 모델
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
저자: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
초록
컴퓨터 사용을 위한 다중 모달 에이전트는 정확한 시각적 기반과 긴 실행 체인이 필요한 기본 동작(클릭, 타이핑, 스크롤)에 전적으로 의존하여 연쇄적 실패와 성능 병목 현상을 초래합니다. 다른 에이전트들은 풍부한 프로그래밍 인터페이스(API, MCP 서버, 도구)를 활용하는 반면, 컴퓨터 사용 에이전트(CUAs)는 이러한 기능과 격리된 상태로 남아 있습니다. 우리는 UltraCUA를 제안하며, 이는 GUI 기본 동작과 고수준 프로그래밍 도구 호출을 원활하게 통합하는 하이브리드 액션을 통해 이러한 격차를 해소하는 기반 모델입니다. 이를 위해 우리의 접근 방식은 네 가지 주요 구성 요소로 이루어져 있습니다: (1) 소프트웨어 문서, 오픈소스 저장소, 코드 생성으로부터 프로그래밍 도구를 확장하는 자동화된 파이프라인; (2) 실제 컴퓨터 사용 시나리오를 아우르는 17,000개 이상의 검증 가능한 작업을 생성하는 합성 데이터 엔진; (3) 저수준 GUI 동작과 고수준 프로그래밍 도구 호출을 모두 포함한 대규모 고품질 하이브리드 액션 궤적 수집; (4) 전략적으로 저수준과 고수준 동작을 교체할 수 있도록 지도 미세 조정과 온라인 강화 학습을 결합한 두 단계 훈련 파이프라인. 7B 및 32B 모델을 사용한 실험은 최신 에이전트 대비 상당한 개선을 보여줍니다. OSWorld에서 UltraCUA 모델은 기본 모델 대비 평균 22%의 상대적 개선을 달성하며, 단계 측면에서 11% 더 빠릅니다. WindowsAgentArena에서의 도메인 외 평가에서는 우리 모델이 21.7%의 성공률을 달성하며, Windows 데이터로 훈련된 베이스라인을 능가합니다. 하이브리드 액션 메커니즘은 오류 전파를 줄이면서 실행 효율성을 유지하는 데 있어 핵심적인 역할을 입증했습니다.
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.