VEM: Umgebungsfreie Exploration für das Training von GUI-Agenten mit einem Wert-Umgebungsmodell

papers.abstract

Das Training von Vision-Sprach-Modellen (VLMs) für grafische Benutzeroberflächen (GUI)-Agenten mittels Reinforcement Learning (RL) steht vor entscheidenden Herausforderungen: Umgebungsbasiertes RL erfordert kostspielige Interaktionen, während umgebungsfreie Methoden mit Verteilungsverschiebungen und Belohnungsverallgemeinerung kämpfen. Wir schlagen ein umgebungsfreies RL-Framework vor, das die Werteinschätzung von der Politikoptimierung entkoppelt, indem es ein vortrainiertes Value Environment Model (VEM) nutzt. VEM sagt Zustands-Aktions-Werte direkt aus Offline-Daten voraus und destilliert menschenähnliche Vorannahmen über GUI-Interaktionsergebnisse, ohne die Vorhersage des nächsten Zustands oder Umgebungsfeedback zu benötigen. Dies vermeidet kumulative Fehler und erhöht die Widerstandsfähigkeit gegenüber UI-Änderungen, indem es sich auf semantische Argumentation konzentriert (z.B. Fördert diese Aktion das Ziel des Benutzers?). Das Framework arbeitet in zwei Stufen: (1) Vortraining von VEM zur Schätzung langfristiger Aktionsnutzen und (2) Führung der Politikerkundung mit eingefrorenen VEM-Signalen, was layoutunabhängige GUI-Automatisierung ermöglicht. Bei der Bewertung auf Android-in-the-Wild-Benchmarks erreicht VEM Spitzenleistungen in Offline- und Online-Szenarien, übertrifft umgebungsfreie Baselines deutlich und erreicht umgebungsbasierte Ansätze ohne Interaktionskosten. Wichtig ist, dass VEM zeigt, dass semantikbewusste Werteinschätzung vergleichbare Leistungen mit online trainierten Methoden erzielen kann.

English

Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI) agents via Reinforcement Learning (RL) faces critical challenges: environment-based RL requires costly interactions, while environment-free methods struggle with distribution shift and reward generalization. We propose an environment-free RL framework that decouples value estimation from policy optimization by leveraging a pretrained Value Environment Model (VEM). VEM predicts state-action values directly from offline data, distilling human-like priors about GUI interaction outcomes without requiring next-state prediction or environmental feedback. This avoids compounding errors and enhances resilience to UI changes by focusing on semantic reasoning (e.g., Does this action advance the user's goal?). The framework operates in two stages: (1) pretraining VEM to estimate long-term action utilities and (2) guiding policy exploration with frozen VEM signals, enabling layout-agnostic GUI automation. Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art performance in both offline and online settings, outperforming environment-free baselines significantly and matching environment-based approaches without interaction costs. Importantly, VEM demonstrates that semantic-aware value estimation can achieve comparable performance with online-trained methods.

VEM: Umgebungsfreie Exploration für das Training von GUI-Agenten mit einem Wert-Umgebungsmodell

VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

papers.abstract

Support