VEM: Umgebungsfreie Exploration für das Training von GUI-Agenten mit einem Wert-Umgebungsmodell
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model
February 26, 2025
Autoren: Jiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
cs.AI
Zusammenfassung
Das Training von Vision-Sprach-Modellen (VLMs) für grafische Benutzeroberflächen (GUI)-Agenten mittels Reinforcement Learning (RL) steht vor entscheidenden Herausforderungen: Umgebungsbasiertes RL erfordert kostspielige Interaktionen, während umgebungsfreie Methoden mit Verteilungsverschiebungen und Belohnungsverallgemeinerung kämpfen. Wir schlagen ein umgebungsfreies RL-Framework vor, das die Werteinschätzung von der Politikoptimierung entkoppelt, indem es ein vortrainiertes Value Environment Model (VEM) nutzt. VEM sagt Zustands-Aktions-Werte direkt aus Offline-Daten voraus und destilliert menschenähnliche Vorannahmen über GUI-Interaktionsergebnisse, ohne die Vorhersage des nächsten Zustands oder Umgebungsfeedback zu benötigen. Dies vermeidet kumulative Fehler und erhöht die Widerstandsfähigkeit gegenüber UI-Änderungen, indem es sich auf semantische Argumentation konzentriert (z.B. Fördert diese Aktion das Ziel des Benutzers?). Das Framework arbeitet in zwei Stufen: (1) Vortraining von VEM zur Schätzung langfristiger Aktionsnutzen und (2) Führung der Politikerkundung mit eingefrorenen VEM-Signalen, was layoutunabhängige GUI-Automatisierung ermöglicht. Bei der Bewertung auf Android-in-the-Wild-Benchmarks erreicht VEM Spitzenleistungen in Offline- und Online-Szenarien, übertrifft umgebungsfreie Baselines deutlich und erreicht umgebungsbasierte Ansätze ohne Interaktionskosten. Wichtig ist, dass VEM zeigt, dass semantikbewusste Werteinschätzung vergleichbare Leistungen mit online trainierten Methoden erzielen kann.
English
Training Vision-Language Models (VLMs) for Graphical User Interfaces (GUI)
agents via Reinforcement Learning (RL) faces critical challenges:
environment-based RL requires costly interactions, while environment-free
methods struggle with distribution shift and reward generalization. We propose
an environment-free RL framework that decouples value estimation from policy
optimization by leveraging a pretrained Value Environment Model (VEM). VEM
predicts state-action values directly from offline data, distilling human-like
priors about GUI interaction outcomes without requiring next-state prediction
or environmental feedback. This avoids compounding errors and enhances
resilience to UI changes by focusing on semantic reasoning (e.g., Does this
action advance the user's goal?). The framework operates in two stages: (1)
pretraining VEM to estimate long-term action utilities and (2) guiding policy
exploration with frozen VEM signals, enabling layout-agnostic GUI automation.
Evaluated on Android-in-the-Wild benchmarks, VEM achieves state-of-the-art
performance in both offline and online settings, outperforming environment-free
baselines significantly and matching environment-based approaches without
interaction costs. Importantly, VEM demonstrates that semantic-aware value
estimation can achieve comparable performance with online-trained methods.Summary
AI-Generated Summary