UltraCUA: ハイブリッドアクションを備えたコンピュータ利用エージェントの基盤モデル
UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action
October 20, 2025
著者: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI
要旨
コンピュータ利用のためのマルチモーダルエージェントは、正確な視覚的基盤と長い実行チェーンを必要とする原始的なアクション(クリック、タイプ、スクロール)に完全に依存しており、連鎖的な失敗やパフォーマンスのボトルネックを引き起こしています。他のエージェントが豊富なプログラムインターフェース(API、MCPサーバー、ツール)を活用する一方で、コンピュータ利用エージェント(CUA)はこれらの機能から隔離されたままです。本論文では、このギャップを埋めるための基盤モデルであるUltraCUAを提案します。UltraCUAは、GUIの原始的なアクションと高レベルのプログラムツール呼び出しをシームレスに統合するハイブリッドアクションを実現します。これを達成するために、我々のアプローチは以下の4つの主要なコンポーネントで構成されています:(1)ソフトウェアドキュメンテーション、オープンソースリポジトリ、およびコード生成からプログラムツールをスケーリングする自動化パイプライン、(2)実世界のコンピュータ利用シナリオにわたる17,000以上の検証可能なタスクを生成する合成データエンジン、(3)低レベルのGUIアクションと高レベルのプログラムツール呼び出しの両方を含む大規模で高品質なハイブリッドアクショントラジェクトリの収集、(4)教師ありファインチューニングとオンライン強化学習を組み合わせた2段階のトレーニングパイプラインで、低レベルと高レベルのアクションを戦略的に切り替えることを可能にします。7Bおよび32Bモデルを用いた実験では、最先端のエージェントを大幅に上回る改善が示されました。OSWorldでは、UltraCUAモデルはベースモデルに対して平均22%の相対的な改善を達成し、ステップ数において11%高速でした。WindowsAgentArenaでのドメイン外評価では、我々のモデルが21.7%の成功率に達し、Windowsデータでトレーニングされたベースラインを上回りました。ハイブリッドアクションメカニズムは、実行効率を維持しながらエラーの伝播を減少させる点で重要であることが証明されました。
English
Multimodal agents for computer use rely exclusively on primitive actions
(click, type, scroll) that require accurate visual grounding and lengthy
execution chains, leading to cascading failures and performance bottlenecks.
While other agents leverage rich programmatic interfaces (APIs, MCP servers,
tools), computer-use agents (CUAs) remain isolated from these capabilities. We
present UltraCUA, a foundation model that bridges this gap through hybrid
action -- seamlessly integrating GUI primitives with high-level programmatic
tool calls. To achieve this, our approach comprises four key components: (1) an
automated pipeline that scales programmatic tools from software documentation,
open-source repositories, and code generation; (2) a synthetic data engine
producing over 17,000 verifiable tasks spanning real-world computer-use
scenarios; (3) a large-scale high-quality hybrid action trajectory collection
with both low-level GUI actions and high-level programmatic tool calls; and (4)
a two-stage training pipeline combining supervised fine-tuning with online
reinforcement learning, enabling strategic alternation between low-level and
high-level actions. Experiments with our 7B and 32B models demonstrate
substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA
models achieve an average 22% relative improvement over base models, while
being 11% faster in terms of steps. Out-of-domain evaluation on
WindowsAgentArena shows our model reaches 21.7% success rate, outperforming
baselines trained on Windows data. The hybrid action mechanism proves critical,
reducing error propagation while maintaining execution efficiency.