VEM : Exploration Sans Environnement pour l'Entraînement d'Agents d'Interface Graphique avec un Modèle de Valeur

papers.abstract

L'entraînement de modèles vision-langage (VLMs) pour les agents d'interfaces graphiques (GUI) via l'apprentissage par renforcement (RL) présente des défis majeurs : le RL basé sur l'environnement nécessite des interactions coûteuses, tandis que les méthodes indépendantes de l'environnement peinent à gérer le décalage de distribution et la généralisation des récompenses. Nous proposons un cadre de RL indépendant de l'environnement qui découple l'estimation de la valeur de l'optimisation de la politique en exploitant un modèle d'environnement de valeur (VEM) préentraîné. Le VEM prédit directement les valeurs état-action à partir de données hors ligne, distillant des connaissances préalables de type humain sur les résultats des interactions avec les GUI sans nécessiter de prédiction de l'état suivant ni de retour d'environnement. Cela évite l'accumulation d'erreurs et renforce la résilience aux changements d'interface en se concentrant sur le raisonnement sémantique (par exemple, cette action fait-elle progresser l'objectif de l'utilisateur ?). Le cadre opère en deux étapes : (1) pré-entraîner le VEM pour estimer les utilités à long terme des actions et (2) guider l'exploration de la politique avec les signaux du VEM figé, permettant une automatisation des GUI indépendante de la mise en page. Évalué sur des benchmarks Android-in-the-Wild, le VEM atteint des performances de pointe dans les contextes hors ligne et en ligne, surpassant significativement les méthodes de référence indépendantes de l'environnement et égalant les approches basées sur l'environnement sans les coûts d'interaction. Fait notable, le VEM démontre qu'une estimation de valeur consciente de la sémantique peut atteindre des performances comparables aux méthodes entraînées en ligne.

English

Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.

VEM : Exploration Sans Environnement pour l'Entraînement d'Agents d'Interface Graphique avec un Modèle de Valeur

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

papers.abstract

Support