ChatPaper.aiChatPaper

DigiRL: Entrenamiento de agentes de control de dispositivos en entornos reales con aprendizaje por refuerzo autónomo

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

June 14, 2024
Autores: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI

Resumen

Los corpus de entrenamiento para modelos de lenguaje visual (VLMs, por sus siglas en inglés) generalmente carecen de cantidades suficientes de datos centrados en la toma de decisiones. Esto hace que los VLMs preentrenados sean subóptimos para tareas de toma de decisiones, como el control de dispositivos en entornos reales a través de interfaces gráficas de usuario (GUIs). Aunque el entrenamiento con demostraciones estáticas ha mostrado cierto potencial, demostramos que estos métodos son insuficientes para controlar GUIs reales debido a su incapacidad para manejar la estocasticidad y la no estacionariedad del mundo real, aspectos que no se capturan en datos de observación estáticos. Este artículo introduce un novedoso enfoque de aprendizaje por refuerzo (RL) autónomo, llamado DigiRL, para entrenar agentes de control de dispositivos en entornos reales mediante el ajuste fino de un VLM preentrenado en dos etapas: RL fuera de línea para inicializar el modelo, seguido de RL de fuera de línea a en línea. Para lograrlo, construimos un entorno de aprendizaje escalable y paralelizable para Android equipado con un evaluador basado en VLM y desarrollamos un enfoque de RL simple pero efectivo para el aprendizaje en este dominio. Nuestro enfoque ejecuta RL ponderado por ventajas con estimadores de ventaja mejorados para tener en cuenta la estocasticidad, junto con un currículo automático para obtener la máxima señal de aprendizaje. Demostramos la efectividad de DigiRL utilizando el conjunto de datos Android-in-the-Wild (AitW), donde nuestro VLM de 1.3B entrenado con RL logra una mejora absoluta del 49.5% —de una tasa de éxito del 17.7% al 67.2%— en comparación con el ajuste fino supervisado utilizando datos de demostración humana estática. Estos resultados superan significativamente no solo a los mejores agentes anteriores, incluyendo AppAgent con GPT-4V (8.3% de tasa de éxito) y el CogAgent de 17B entrenado con datos de AitW (38.5%), sino también al mejor enfoque de RL autónomo anterior basado en clonación de comportamiento filtrada (57.8%), estableciendo así un nuevo estado del arte para agentes digitales de control de dispositivos en entornos reales.
English
Training corpuses for vision language models (VLMs) typically lack sufficient amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal for decision-making tasks such as in-the-wild device control through graphical user interfaces (GUIs). While training with static demonstrations has shown some promise, we show that such methods fall short for controlling real GUIs due to their failure to deal with real-world stochasticity and non-stationarity not captured in static observational data. This paper introduces a novel autonomous RL approach, called DigiRL, for training in-the-wild device control agents through fine-tuning a pre-trained VLM in two stages: offline RL to initialize the model, followed by offline-to-online RL. To do this, we build a scalable and parallelizable Android learning environment equipped with a VLM-based evaluator and develop a simple yet effective RL approach for learning in this domain. Our approach runs advantage-weighted RL with advantage estimators enhanced to account for stochasticity along with an automatic curriculum for deriving maximal learning signal. We demonstrate the effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our 1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to 67.2% success rate -- over supervised fine-tuning with static human demonstration data. These results significantly surpass not only the prior best agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent trained with AitW data (38.5%), but also the prior best autonomous RL approach based on filtered behavior cloning (57.8%), thereby establishing a new state-of-the-art for digital agents for in-the-wild device control.

Summary

AI-Generated Summary

PDF201December 2, 2024