ChatPaper.aiChatPaper

VEM: Exploración Libre de Entorno para el Entrenamiento de Agentes de Interfaz Gráfica con Modelo de Valor de Entorno

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

February 26, 2025
Autores: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Resumen

El entrenamiento de Modelos de Visión-Lenguaje (VLMs) para agentes de Interfaces Gráficas de Usuario (GUI) mediante Aprendizaje por Refuerzo (RL) enfrenta desafíos críticos: el RL basado en entorno requiere interacciones costosas, mientras que los métodos libres de entorno luchan con el cambio de distribución y la generalización de recompensas. Proponemos un marco de RL libre de entorno que desacopla la estimación de valor de la optimización de políticas mediante el uso de un Modelo de Entorno de Valor (VEM) preentrenado. El VEM predice los valores de estado-acción directamente a partir de datos fuera de línea, destilando conocimientos previos similares a los humanos sobre los resultados de la interacción con la GUI sin necesidad de predecir el siguiente estado o recibir retroalimentación del entorno. Esto evita la acumulación de errores y mejora la resiliencia a los cambios en la interfaz al centrarse en el razonamiento semántico (por ejemplo, ¿Esta acción avanza hacia el objetivo del usuario?). El marco opera en dos etapas: (1) preentrenar el VEM para estimar las utilidades de acción a largo plazo y (2) guiar la exploración de políticas con señales de VEM congeladas, permitiendo la automatización de GUI independiente del diseño. Evaluado en benchmarks de Android-in-the-Wild, el VEM logra un rendimiento de vanguardia tanto en configuraciones fuera de línea como en línea, superando significativamente a los métodos libres de entorno y equiparándose a los enfoques basados en entorno sin incurrir en costos de interacción. Es importante destacar que el VEM demuestra que la estimación de valor consciente de la semántica puede alcanzar un rendimiento comparable con los métodos entrenados en línea.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.

Summary

AI-Generated Summary

PDF122February 27, 2025