DigiRL: Training van apparaatbesturingsagenten in de praktijk met autonoom reinforcement learning
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
Auteurs: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
Samenvatting
Trainingscorpora voor vision-language-modellen (VLMs) bevatten doorgaans onvoldoende hoeveelheden beslissingsgerichte data. Dit maakt standaard VLMs suboptimaal voor besluitvormingstaken, zoals het besturen van apparaten in de praktijk via grafische gebruikersinterfaces (GUI's). Hoewel training met statische demonstraties enige belofte heeft getoond, laten we zien dat dergelijke methoden tekortschieten voor het besturen van echte GUI's vanwege hun onvermogen om om te gaan met real-world stochastiek en non-stationariteit die niet worden vastgelegd in statische observatiedata. Dit artikel introduceert een nieuwe autonome RL-benadering, genaamd DigiRL, voor het trainen van agents voor het besturen van apparaten in de praktijk door middel van fine-tuning van een vooraf getraind VLM in twee fasen: offline RL om het model te initialiseren, gevolgd door offline-naar-online RL. Hiervoor bouwen we een schaalbare en paralleliseerbare Android-leeromgeving uitgerust met een VLM-gebaseerde evaluator en ontwikkelen we een eenvoudige maar effectieve RL-benadering voor leren in dit domein. Onze benadering voert advantage-weighted RL uit met advantage-schatters die zijn versterkt om rekening te houden met stochastiek, samen met een automatisch curriculum voor het afleiden van maximaal leersignaal. We demonstreren de effectiviteit van DigiRL met behulp van de Android-in-the-Wild (AitW) dataset, waar ons 1,3B VLM getraind met RL een absolute verbetering van 49,5% behaalt -- van 17,7 naar 67,2% slagingspercentage -- ten opzichte van supervised fine-tuning met statische menselijke demonstratiedata. Deze resultaten overtreffen niet alleen de beste eerdere agents, waaronder AppAgent met GPT-4V (8,3% slagingspercentage) en de 17B CogAgent getraind met AitW-data (38,5%), maar ook de beste eerdere autonome RL-benadering gebaseerd op gefilterde behavior cloning (57,8%), waarmee een nieuwe state-of-the-art wordt gevestigd voor digitale agents voor het besturen van apparaten in de praktijk.
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.