DigiRL: Training von Gerätesteuerungs-Agenten in freier Wildbahn mit autonomem Reinforcement Learning
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
Autoren: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
Zusammenfassung
Trainingskorpora für Vision Language Models (VLMs) weisen in der Regel nicht ausreichende Mengen an entscheidungszentrierten Daten auf. Dies macht Standard-VLMs für Entscheidungsaufgaben wie die Steuerung von Geräten in freier Wildbahn über grafische Benutzeroberflächen (GUIs) suboptimal. Obwohl das Training mit statischen Demonstrationen gewisse Erfolge gezeigt hat, zeigen wir, dass solche Methoden für die Steuerung realer GUIs aufgrund ihres Versagens im Umgang mit realer Stochastizität und Nicht-Stationarität, die in statischen Beobachtungsdaten nicht erfasst werden, nicht ausreichen. Dieses Papier stellt einen neuartigen autonomen RL-Ansatz namens DigiRL vor, um Gerätesteuerungsagenten in freier Wildbahn durch Feinabstimmung eines vorab trainierten VLM in zwei Phasen zu trainieren: Offline-RL zur Initialisierung des Modells, gefolgt von Offline-zu-Online-RL. Hierfür bauen wir eine skalierbare und parallelisierbare Android-Lernumgebung mit einem VLM-basierten Evaluierer auf und entwickeln einen einfachen, aber effektiven RL-Ansatz für das Lernen in diesem Bereich. Unser Ansatz verwendet Advantage-gewichtete RL mit Advantage-Schätzern, die zur Berücksichtigung der Stochastizität verbessert wurden, zusammen mit einem automatischen Lehrplan zur Ableitung des maximalen Lernsignals. Wir zeigen die Wirksamkeit von DigiRL anhand des Android-in-the-Wild (AitW) Datensatzes, wobei unser mit RL trainiertes 1,3B VLM eine absolute Verbesserung von 49,5% erzielt - von einer Erfolgsrate von 17,7% auf 67,2% - im Vergleich zur überwachten Feinabstimmung mit statischen menschlichen Demonstrationsdaten. Diese Ergebnisse übertreffen signifikant nicht nur die bisher besten Agenten, einschließlich AppAgent mit GPT-4V (8,3% Erfolgsrate) und dem 17B CogAgent, der mit AitW-Daten trainiert wurde (38,5%), sondern auch den bisher besten autonomen RL-Ansatz basierend auf gefiltertem Verhaltenscloning (57,8%), und etablieren somit einen neuen State-of-the-Art für digitale Agenten zur Gerätesteuerung in freier Wildbahn.
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.Summary
AI-Generated Summary