ChatPaper.aiChatPaper

EvoCUA: スケーラブルな合成経験からの学習によるコンピュータ利用エージェントの進化

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

January 22, 2026
著者: Taofeng Xue, Chong Peng, Mianqiu Huang, Linsen Guo, Tiancheng Han, Haozhe Wang, Jianing Wang, Xiaocheng Zhang, Xin Yang, Dengchang Zhao, Jinrui Ding, Xiandi Ma, Yuchen Xie, Peng Pei, Xunliang Cai, Xipeng Qiu
cs.AI

要旨

ネイティブコンピュータ利用エージェント(CUA)の開発は、マルチモーダルAIにおける重要な飛躍を意味する。しかし、その潜在能力は現在、静的なデータスケーリングの制約によってボトルネックに陥っている。静的なデータセットの受動的模倣に主に依存する既存のパラダイムでは、長期的なコンピュータタスクに内在する複雑な因果ダイナミクスを捉えることが困難である。本研究では、ネイティブコンピュータ利用エージェントモデルであるEvoCUAを提案する。静的な模倣とは異なり、EvoCUAはデータ生成とポリシー最適化を自己維持的な進化サイクルに統合する。データ不足を緩和するため、多様なタスクと実行可能な検証器を自律的に生成する検証可能な合成エンジンを開発した。大規模な経験獲得を可能にするため、数万の非同期サンドボックス実行を調整するスケーラブルなインフラストラクチャを設計した。これらの大規模な軌跡に基づき、経験を効率的に内在化する反復的進化学習戦略を提案する。このメカニズムは、能力境界を特定することでポリシー更新を動的に制御し、成功したルーチンを強化するとともに、エラー分析と自己修正を通じて失敗軌跡を豊かな教師信号に変換する。OSWorldベンチマークによる実証評価では、EvoCUAが56.7%の成功率を達成し、新しいオープンソースのstate-of-the-artを確立した。特に、EvoCUAは従来の最良オープンソースモデルであるOpenCUA-72B(45.0%)を大幅に上回り、UI-TARS-2(53.1%)などのクローズドウェイトモデルも凌駕した。重要なのは、このアプローチの一般化可能性が結果によって裏付けられている点である。経験からの学習によって駆動される進化パラダイムは、様々な規模の基盤モデルにおいて一貫した性能向上をもたらし、ネイティブエージェント能力を発展させるための堅牢かつスケーラブルな経路を確立する。
English
The development of native computer-use agents (CUA) represents a significant leap in multimodal AI. However, their potential is currently bottlenecked by the constraints of static data scaling. Existing paradigms relying primarily on passive imitation of static datasets struggle to capture the intricate causal dynamics inherent in long-horizon computer tasks. In this work, we introduce EvoCUA, a native computer use agentic model. Unlike static imitation, EvoCUA integrates data generation and policy optimization into a self-sustaining evolutionary cycle. To mitigate data scarcity, we develop a verifiable synthesis engine that autonomously generates diverse tasks coupled with executable validators. To enable large-scale experience acquisition, we design a scalable infrastructure orchestrating tens of thousands of asynchronous sandbox rollouts. Building on these massive trajectories, we propose an iterative evolving learning strategy to efficiently internalize this experience. This mechanism dynamically regulates policy updates by identifying capability boundaries -- reinforcing successful routines while transforming failure trajectories into rich supervision through error analysis and self-correction. Empirical evaluations on the OSWorld benchmark demonstrate that EvoCUA achieves a success rate of 56.7%, establishing a new open-source state-of-the-art. Notably, EvoCUA significantly outperforms the previous best open-source model, OpenCUA-72B (45.0%), and surpasses leading closed-weights models such as UI-TARS-2 (53.1%). Crucially, our results underscore the generalizability of this approach: the evolving paradigm driven by learning from experience yields consistent performance gains across foundation models of varying scales, establishing a robust and scalable path for advancing native agent capabilities.
PDF621January 24, 2026