VEM: 価値環境モデルを用いたGUIエージェント訓練のための環境フリー探索
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
著者: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
要旨
グラフィカルユーザーインターフェース(GUI)エージェントのためのビジョン-ランゲージモデル(VLM)を強化学習(RL)を用いて訓練する際には、重要な課題が存在します。環境ベースのRLでは高コストなインタラクションが必要であり、環境不要の手法では分布シフトや報酬の一般化に苦戦します。本論文では、事前学習された価値環境モデル(VEM)を活用することで、価値推定とポリシー最適化を分離した環境不要のRLフレームワークを提案します。VEMはオフラインデータから直接状態-行動価値を予測し、次の状態の予測や環境からのフィードバックを必要とせずに、GUIインタラクションの結果に関する人間のような事前知識を蒸留します。これにより、エラーの累積を回避し、セマンティックな推論(例:このアクションはユーザーの目標を進めるか?)に焦点を当てることで、UI変更に対する耐性を高めます。このフレームワークは2段階で動作します:(1)長期的なアクションの有用性を推定するためにVEMを事前学習し、(2)凍結されたVEMの信号でポリシー探索を導くことで、レイアウトに依存しないGUI自動化を実現します。Android-in-the-Wildベンチマークで評価した結果、VEMはオフラインおよびオンライン設定の両方で最先端の性能を達成し、環境不要のベースラインを大幅に上回り、インタラクションコストなしで環境ベースのアプローチに匹敵する性能を示しました。重要なことに、VEMはセマンティックを意識した価値推定がオンライン訓練手法と同等の性能を達成できることを実証しています。
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary