ChatPaper.aiChatPaper

EvoCUA: 확장 가능한 합성 경험 학습을 통한 컴퓨터 사용 에이전트 진화

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

January 22, 2026
저자: Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu
cs.AI

초록

네이티브 컴퓨터 사용 에이전트(CUA)의 발전은 멀티모달 AI의 중요한 도약을 의미합니다. 그러나 그 잠재력은 현재 정적 데이터 확장의 한계에 의해 병목 현상을 겪고 있습니다. 주로 정적 데이터셋의 수동적 모방에 의존하는 기존 패러다임은 장기간의 컴퓨터 작업에 내재된 복잡한 인과적 역학을 포착하는 데 어려움을 겪습니다. 본 연구에서는 정적 모방과 달리 데이터 생성과 정책 최적화를 자체 지속 가능한 진화 사이클로 통합하는 네이티브 컴퓨터 사용 에이전트 모델인 EvoCUA를 소개합니다. 데이터 부족 문제를 완화하기 위해 다양한 작업과 실행 가능한 검증기를 자율적으로 생성하는 검증 가능한 합성 엔진을 개발했습니다. 대규모 경험 획득을 가능하게 하기 위해 수만 개의 비동기 샌드박스 롤아웃을 조정하는 확장 가능한 인프라를 설계했습니다. 이러한 대규모 궤적 데이터를 바탕으로, 이 경험을 효율적으로 내재화하기 위한 반복적 진화 학습 전략을 제안합니다. 이 메커니즘은 능력 한계를 식별하여 정책 업데이트를 동적으로 조절합니다. 즉, 성공적인 루틴을 강화하는 동시에 오류 분석 및 자기 수정을 통해 실패 궤적을 풍부한 감독 신호로 전환합니다. OSWorld 벤치마크에 대한 실험적 평가 결과, EvoCUA는 56.7%의 성공률을 달성하여 새로운 오픈소스 최첨단 기술을 확립했습니다. 특히 EvoCUA는 이전 최고 오픈소스 모델인 OpenCUA-72B(45.0%)를 크게 앞섰을 뿐만 아니라 UI-TARS-2(53.1%)와 같은 주요 폐쇄형 가중치 모델도 능가했습니다. 무엇보다도 우리의 결과는 이 접근법의 일반화 가능성을 강조합니다. 경험 학습에 의해 주도되는 진화 패러다임은 다양한 규모의 파운데이션 모델 전반에 걸쳐 일관된 성능 향상을 가져와 네이티브 에이전트 능력 향상을 위한 견고하고 확장 가능한 경로를 제시합니다.
English
The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle. To mitigate data scarcity, we develop a verifiable synthesis engine that autonomously generates diverse tasks coupled with executable validators. To enable large-scale experience acquisition, we design a scalable infrastructure orchestrating tens of thousands of asynchronous sandbox rollouts. Building on these massive trajectories, we propose an iterative evolving learning strategy to efficiently internalize this experience. This mechanism dynamically regulates policy updates by identifying capability boundaries -- reinforcing successful routines while transforming failure trajectories into rich supervision through error analysis and self-correction. Empirical evaluations on the OSWorld benchmark demonstrate that EvoCUA achieves a success rate of 56.7%, establishing a new open-source state-of-the-art. Notably, EvoCUA significantly outperforms the previous best open-source model, OpenCUA-72B (45.0%), and surpasses leading closed-weights models such as UI-TARS-2 (53.1%). Crucially, our results underscore the generalizability of this approach: the evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.
PDF621January 24, 2026