VEM: Omgevingsvrije exploratie voor het trainen van GUI-agenten met waardemodel van de omgeving
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Auteurs: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Samenvatting
Het trainen van Vision-Language Models (VLMs) voor Graphical User Interface (GUI)-agentschappen via Reinforcement Learning (RL) kampt met cruciale uitdagingen: omgevingsgebaseerde RL vereist kostbare interacties, terwijl omgevingsvrije methoden moeite hebben met distributieverschuiving en beloningsgeneralizatie. Wij stellen een omgevingsvrij RL-raamwerk voor dat waardeschatting ontkoppelt van beleidsoptimalisatie door gebruik te maken van een vooraf getraind Value Environment Model (VEM). VEM voorspelt staat-actie-waarden rechtstreeks uit offline data, waarbij het mensachtige aannames destilleert over GUI-interactieresultaten zonder voorspelling van de volgende staat of omgevingsfeedback te vereisen. Dit voorkomt stapelingsfouten en verhoogt de veerkracht tegen UI-veranderingen door te focussen op semantisch redeneren (bijv., Draagt deze actie bij aan het doel van de gebruiker?). Het raamwerk werkt in twee fasen: (1) het vooraf trainen van VEM om langetermijnactienut te schatten en (2) het begeleiden van beleidsverkenning met bevroren VEM-signalen, waardoor layout-onafhankelijke GUI-automatisering mogelijk wordt. Geëvalueerd op Android-in-the-Wild benchmarks, behaalt VEM state-of-the-art prestaties in zowel offline als online settings, waarbij het omgevingsvrije referentiemodellen aanzienlijk overtreft en prestaties van omgevingsgebaseerde benaderingen evenaart zonder interactiekosten. Belangrijk is dat VEM aantoont dat semantisch bewuste waardeschatting vergelijkbare prestaties kan bereiken als online getrainde methoden.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.