VEM: Exploração Livre de Ambiente para Treinamento de Agente de Interface Gráfica com Modelo de Valor do Ambiente
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Autores: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Resumo
Treinar Modelos Visão-Linguagem (VLMs) para agentes de Interfaces Gráficas de Usuário (GUI) por meio de Aprendizado por Reforço (RL) enfrenta desafios críticos: RL baseado em ambiente requer interações custosas, enquanto métodos livres de ambiente lutam com deslocamento de distribuição e generalização de recompensa. Propomos um framework de RL livre de ambiente que desvincula a estimativa de valor da otimização de política, aproveitando um Modelo de Ambiente de Valor (VEM) pré-treinado. O VEM prevê valores de estado-ação diretamente a partir de dados offline, destilando prioridades humanas sobre resultados de interação com GUI sem exigir previsão de próximo estado ou feedback ambiental. Isso evita erros cumulativos e melhora a resiliência a mudanças na IU ao focar no raciocínio semântico (por exemplo, Esta ação avança o objetivo do usuário?). O framework opera em duas etapas: (1) pré-treinamento do VEM para estimar utilidades de ação de longo prazo e (2) orientar a exploração de política com sinais congelados do VEM, permitindo automação de GUI independente de layout. Avaliado em benchmarks Android-in-the-Wild, o VEM alcança desempenho de ponta tanto em configurações offline quanto online, superando significativamente baselines livres de ambiente e igualando abordagens baseadas em ambiente sem custos de interação. Importante ressaltar que o VEM demonstra que a estimativa de valor consciente de semântica pode alcançar desempenho comparável com métodos treinados online.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary