VEM: Exploración Libre de Entorno para el Entrenamiento de Agentes de Interfaz Gráfica con Modelo de Valor de Entorno
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Autores: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Resumen
El entrenamiento de Modelos de Visión-Lenguaje (VLMs) para agentes de Interfaces Gráficas de Usuario (GUI) mediante Aprendizaje por Refuerzo (RL) enfrenta desafíos críticos: el RL basado en entorno requiere interacciones costosas, mientras que los métodos libres de entorno luchan con el cambio de distribución y la generalización de recompensas. Proponemos un marco de RL libre de entorno que desacopla la estimación de valor de la optimización de políticas mediante el uso de un Modelo de Entorno de Valor (VEM) preentrenado. El VEM predice los valores de estado-acción directamente a partir de datos fuera de línea, destilando conocimientos previos similares a los humanos sobre los resultados de la interacción con la GUI sin necesidad de predecir el siguiente estado o recibir retroalimentación del entorno. Esto evita la acumulación de errores y mejora la resiliencia a los cambios en la interfaz al centrarse en el razonamiento semántico (por ejemplo, ¿Esta acción avanza hacia el objetivo del usuario?). El marco opera en dos etapas: (1) preentrenar el VEM para estimar las utilidades de acción a largo plazo y (2) guiar la exploración de políticas con señales de VEM congeladas, permitiendo la automatización de GUI independiente del diseño. Evaluado en benchmarks de Android-in-the-Wild, el VEM logra un rendimiento de vanguardia tanto en configuraciones fuera de línea como en línea, superando significativamente a los métodos libres de entorno y equiparándose a los enfoques basados en entorno sin incurrir en costos de interacción. Es importante destacar que el VEM demuestra que la estimación de valor consciente de la semántica puede alcanzar un rendimiento comparable con los métodos entrenados en línea.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary