ChatPaper.aiChatPaper

VEM: Esplorazione Libera dall'Ambiente per l'Addestramento di Agenti GUI con Modello di Valore Ambientale

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

February 26, 2025
Autori: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI

Abstract

L'addestramento di modelli visione-linguaggio (VLMs) per agenti di interfacce grafiche utente (GUI) tramite apprendimento per rinforzo (RL) presenta sfide critiche: l'RL basato sull'ambiente richiede interazioni costose, mentre i metodi senza ambiente faticano a gestire lo spostamento della distribuzione e la generalizzazione della ricompensa. Proponiamo un framework RL senza ambiente che disaccoppia la stima del valore dall'ottimizzazione della politica sfruttando un modello di ambiente valore (VEM) preaddestrato. Il VEM prevede i valori stato-azione direttamente da dati offline, distillando prior simili a quelli umani riguardo ai risultati dell'interazione con la GUI senza richiedere la previsione dello stato successivo o il feedback ambientale. Ciò evita l'accumulo di errori e migliora la resilienza ai cambiamenti dell'interfaccia utente concentrandosi sul ragionamento semantico (ad esempio, "Questa azione avanza l'obiettivo dell'utente?"). Il framework opera in due fasi: (1) preaddestramento del VEM per stimare le utilità a lungo termine delle azioni e (2) guida dell'esplorazione della politica con segnali VEM congelati, consentendo l'automazione della GUI indipendente dal layout. Valutato su benchmark Android-in-the-Wild, il VEM raggiunge prestazioni all'avanguardia sia in contesti offline che online, superando significativamente i metodi di riferimento senza ambiente e eguagliando gli approcci basati sull'ambiente senza costi di interazione. È importante sottolineare che il VEM dimostra che la stima del valore consapevole della semantica può raggiungere prestazioni comparabili con i metodi addestrati online.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.

Summary

AI-Generated Summary

PDF122February 27, 2025