VEM : Exploration Sans Environnement pour l'Entraînement d'Agents d'Interface Graphique avec un Modèle de Valeur
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Auteurs: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Résumé
L'entraînement de modèles vision-langage (VLMs) pour les agents d'interfaces graphiques (GUI) via l'apprentissage par renforcement (RL) présente des défis majeurs : le RL basé sur l'environnement nécessite des interactions coûteuses, tandis que les méthodes indépendantes de l'environnement peinent à gérer le décalage de distribution et la généralisation des récompenses. Nous proposons un cadre de RL indépendant de l'environnement qui découple l'estimation de la valeur de l'optimisation de la politique en exploitant un modèle d'environnement de valeur (VEM) préentraîné. Le VEM prédit directement les valeurs état-action à partir de données hors ligne, distillant des connaissances préalables de type humain sur les résultats des interactions avec les GUI sans nécessiter de prédiction de l'état suivant ni de retour d'environnement. Cela évite l'accumulation d'erreurs et renforce la résilience aux changements d'interface en se concentrant sur le raisonnement sémantique (par exemple, cette action fait-elle progresser l'objectif de l'utilisateur ?). Le cadre opère en deux étapes : (1) pré-entraîner le VEM pour estimer les utilités à long terme des actions et (2) guider l'exploration de la politique avec les signaux du VEM figé, permettant une automatisation des GUI indépendante de la mise en page. Évalué sur des benchmarks Android-in-the-Wild, le VEM atteint des performances de pointe dans les contextes hors ligne et en ligne, surpassant significativement les méthodes de référence indépendantes de l'environnement et égalant les approches basées sur l'environnement sans les coûts d'interaction. Fait notable, le VEM démontre qu'une estimation de valeur consciente de la sémantique peut atteindre des performances comparables aux méthodes entraînées en ligne.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary