DigiRL: Addestramento di Agenti per il Controllo di Dispositivi in Ambiente Reale con Apprendimento per Rinforzo Autonomo
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
Autori: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
Abstract
I corpus di addestramento per i modelli di linguaggio visivo (VLMs) tipicamente mancano di quantità sufficienti di dati centrati sulle decisioni. Ciò rende i VLMs predefiniti subottimali per compiti decisionali come il controllo di dispositivi in contesti reali attraverso interfacce grafiche (GUI). Sebbene l'addestramento con dimostrazioni statiche abbia mostrato qualche promessa, dimostriamo che tali metodi sono insufficienti per controllare GUI reali a causa della loro incapacità di gestire la stocasticità e la non stazionarietà del mondo reale non catturate nei dati osservativi statici. Questo articolo introduce un nuovo approccio RL autonomo, chiamato DigiRL, per addestrare agenti di controllo di dispositivi in contesti reali attraverso il fine-tuning di un VLM pre-addestrato in due fasi: RL offline per inizializzare il modello, seguito da RL da offline a online. Per fare ciò, costruiamo un ambiente di apprendimento Android scalabile e parallelizzabile dotato di un valutatore basato su VLM e sviluppiamo un approccio RL semplice ma efficace per l'apprendimento in questo dominio. Il nostro approccio esegue RL ponderato per il vantaggio con stimatori del vantaggio potenziati per tenere conto della stocasticità, insieme a un curriculum automatico per derivare il massimo segnale di apprendimento. Dimostriamo l'efficacia di DigiRL utilizzando il dataset Android-in-the-Wild (AitW), dove il nostro VLM da 1,3B addestrato con RL raggiunge un miglioramento assoluto del 49,5% — dal 17,7 al 67,2% di tasso di successo — rispetto al fine-tuning supervisionato con dati di dimostrazione umana statica. Questi risultati superano significativamente non solo i migliori agenti precedenti, inclusi AppAgent con GPT-4V (8,3% di tasso di successo) e il CogAgent da 17B addestrato con dati AitW (38,5%), ma anche il miglior approccio RL autonomo precedente basato su clonazione del comportamento filtrata (57,8%), stabilendo così un nuovo stato dell'arte per gli agenti digitali per il controllo di dispositivi in contesti reali.
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.