SEAgent: 経験からの自律学習による自己進化型コンピュータ利用エージェント
SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
August 6, 2025
著者: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang
cs.AI
要旨
大規模視覚言語モデル(LVLM)をコンピュータ利用エージェント(CUA)として再利用することで、主に人間によるラベル付けデータに基づく大きなブレークスルーがもたらされてきた。しかし、これらのモデルは、特に人間による注釈が欠如しているシナリオにおいて、新規かつ専門的なソフトウェアに対応するのに苦労することが多い。この課題に対処するため、我々はSEAgentを提案する。これは、CUAが未知のソフトウェアとの相互作用を通じて自律的に進化することを可能にするエージェント型自己進化フレームワークである。具体的には、SEAgentはコンピュータ利用エージェントが経験学習を通じて新規ソフトウェア環境を自律的に習得することを可能にする。エージェントは新規ソフトウェアを探索し、反復的な試行錯誤を通じて学習し、単純から複雑へと組織化された自動生成タスクに段階的に取り組む。この目標を達成するため、我々は段階的な軌跡評価のためのワールドステートモデルと、ますます多様で挑戦的なタスクを生成するカリキュラムジェネレータを設計した。エージェントのポリシーは、失敗行動の敵対的模倣と成功行動に対するグループ相対ポリシー最適化(GRPO)から構成される経験学習を通じて更新される。さらに、専門家エージェントからの個別の経験的洞察を統合する専門家からジェネラリストへのトレーニング戦略を導入し、継続的な自律進化が可能なより強力なジェネラリストCUAの開発を促進する。この統一エージェントは、最終的に専門ソフトウェアにおける個別の専門家エージェントのアンサンブルを上回る性能を達成する。我々は、OS-World内の5つの新規ソフトウェア環境においてSEAgentの有効性を検証した。我々のアプローチは、競合するオープンソースCUAであるUI-TARSに対して、成功率を11.3%から34.5%へと23.2%の大幅な改善を達成した。
English
Repurposing large vision-language models (LVLMs) as computer use agents
(CUAs) has led to substantial breakthroughs, primarily driven by human-labeled
data. However, these models often struggle with novel and specialized software,
particularly in scenarios lacking human annotations. To address this challenge,
we propose SEAgent, an agentic self-evolving framework enabling CUAs to
autonomously evolve through interactions with unfamiliar software.
Specifically, SEAgent empowers computer-use agents to autonomously master novel
software environments via experiential learning, where agents explore new
software, learn through iterative trial-and-error, and progressively tackle
auto-generated tasks organized from simple to complex. To achieve this goal, we
design a World State Model for step-wise trajectory assessment, along with a
Curriculum Generator that generates increasingly diverse and challenging tasks.
The agent's policy is updated through experiential learning, comprised of
adversarial imitation of failure actions and Group Relative Policy Optimization
(GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist
training strategy that integrates individual experiential insights from
specialist agents, facilitating the development of a stronger generalist CUA
capable of continuous autonomous evolution. This unified agent ultimately
achieves performance surpassing ensembles of individual specialist agents on
their specialized software. We validate the effectiveness of SEAgent across
five novel software environments within OS-World. Our approach achieves a
significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a
competitive open-source CUA, i.e., UI-TARS.