DigiRL:自律的強化学習を用いた実環境デバイス制御エージェントのトレーニング
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
著者: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
要旨
視覚言語モデル(VLM)のトレーニング用コーパスは、通常、意思決定中心のデータが十分に含まれていません。これにより、既製のVLMは、グラフィカルユーザーインターフェース(GUI)を通じた実環境でのデバイス制御などの意思決定タスクにおいて最適とは言えません。静的デモンストレーションを用いたトレーニングはある程度の成果を示していますが、このような方法は、静的観測データでは捉えられない現実世界の確率性や非定常性に対処できないため、実際のGUI制御には不十分です。本論文では、事前学習済みVLMを2段階でファインチューニングする新しい自律的強化学習(RL)アプローチ、DigiRLを紹介します。このアプローチでは、オフラインRLでモデルを初期化し、その後オフラインからオンラインRLに移行します。これを行うために、VLMベースの評価器を備えたスケーラブルで並列化可能なAndroid学習環境を構築し、この領域で学習するためのシンプルかつ効果的なRLアプローチを開発しました。私たちのアプローチでは、確率性を考慮して強化されたアドバンテージ推定器と、最大の学習信号を導出するための自動カリキュラムを用いて、アドバンテージ重み付きRLを実行します。DigiRLの有効性を、Android-in-the-Wild(AitW)データセットを使用して実証し、RLでトレーニングされた1.3B VLMが、静的ヒューマンデモンストレーションデータを用いた教師ありファインチューニングと比較して、成功率が17.7%から67.2%へと49.5%の絶対的改善を達成しました。これらの結果は、GPT-4Vを使用したAppAgent(8.3%成功率)やAitWデータでトレーニングされた17B CogAgent(38.5%)を含む以前の最良のエージェントを大幅に上回るだけでなく、フィルタリングされた行動クローニングに基づく以前の最良の自律的RLアプローチ(57.8%)も超え、実環境でのデバイス制御のためのデジタルエージェントの新たな最先端を確立しました。
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.Summary
AI-Generated Summary