ChatPaper.aiChatPaper

DigiRL : Entraînement d'agents de contrôle d'appareils en conditions réelles grâce à l'apprentissage par renforcement autonome

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

June 14, 2024
Auteurs: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI

Résumé

Les corpus d'entraînement pour les modèles de vision et langage (VLMs) manquent généralement de données centrées sur la prise de décision. Cela rend les VLMs prêts à l'emploi sous-optimaux pour les tâches de prise de décision, telles que le contrôle d'appareils dans des environnements réels via des interfaces graphiques (GUIs). Bien que l'entraînement avec des démonstrations statiques ait montré un certain potentiel, nous démontrons que ces méthodes sont insuffisantes pour contrôler des GUIs réelles en raison de leur incapacité à gérer la stochasticité et la non-stationnarité du monde réel, non capturées dans les données d'observation statiques. Cet article introduit une nouvelle approche autonome d'apprentissage par renforcement (RL), appelée DigiRL, pour entraîner des agents de contrôle d'appareils dans des environnements réels en affinant un VLM pré-entraîné en deux étapes : un RL hors ligne pour initialiser le modèle, suivi d'un RL hors ligne à en ligne. Pour ce faire, nous construisons un environnement d'apprentissage Android scalable et parallélisable équipé d'un évaluateur basé sur un VLM, et développons une approche RL simple mais efficace pour l'apprentissage dans ce domaine. Notre approche exécute un RL pondéré par l'avantage avec des estimateurs d'avantage améliorés pour tenir compte de la stochasticité, ainsi qu'un curriculum automatique pour maximiser le signal d'apprentissage. Nous démontrons l'efficacité de DigiRL en utilisant le jeu de données Android-in-the-Wild (AitW), où notre VLM de 1,3 milliard de paramètres entraîné avec RL atteint une amélioration absolue de 49,5 % — passant de 17,7 % à 67,2 % de taux de réussite — par rapport à l'affinage supervisé avec des données de démonstration humaine statiques. Ces résultats surpassent non seulement les meilleurs agents précédents, y compris AppAgent avec GPT-4V (8,3 % de taux de réussite) et le CogAgent de 17 milliards de paramètres entraîné avec les données AitW (38,5 %), mais aussi la meilleure approche autonome de RL basée sur le clonage comportemental filtré (57,8 %), établissant ainsi un nouvel état de l'art pour les agents numériques de contrôle d'appareils dans des environnements réels.
English
Training corpuses for vision language models (VLMs) typically lack sufficient amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal for decision-making tasks such as in-the-wild device control through graphical user interfaces (GUIs). While training with static demonstrations has shown some promise, we show that such methods fall short for controlling real GUIs due to their failure to deal with real-world stochasticity and non-stationarity not captured in static observational data. This paper introduces a novel autonomous RL approach, called DigiRL, for training in-the-wild device control agents through fine-tuning a pre-trained VLM in two stages: offline RL to initialize the model, followed by offline-to-online RL. To do this, we build a scalable and parallelizable Android learning environment equipped with a VLM-based evaluator and develop a simple yet effective RL approach for learning in this domain. Our approach runs advantage-weighted RL with advantage estimators enhanced to account for stochasticity along with an automatic curriculum for deriving maximal learning signal. We demonstrate the effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our 1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to 67.2% success rate -- over supervised fine-tuning with static human demonstration data. These results significantly surpass not only the prior best agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent trained with AitW data (38.5%), but also the prior best autonomous RL approach based on filtered behavior cloning (57.8%), thereby establishing a new state-of-the-art for digital agents for in-the-wild device control.

Summary

AI-Generated Summary

PDF201December 2, 2024