ChatPaper.aiChatPaper

DigiRL: Treinando Agentes de Controle de Dispositivos em Ambientes Reais com Aprendizado por Reforço Autônomo

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

June 14, 2024
Autores: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI

Resumo

Corpus de treinamento para modelos de linguagem visual (VLMs) geralmente carecem de quantidades suficientes de dados centrados em decisões. Isso torna os VLMs prontos para uso subótimos para tarefas de tomada de decisão, como o controle de dispositivos em ambientes reais por meio de interfaces gráficas de usuário (GUIs). Embora o treinamento com demonstrações estáticas tenha mostrado algum potencial, demonstramos que tais métodos são insuficientes para controlar GUIs reais devido à sua incapacidade de lidar com a estocasticidade e a não estacionariedade do mundo real, que não são capturadas em dados observacionais estáticos. Este artigo introduz uma nova abordagem de RL autônomo, chamada DigiRL, para treinar agentes de controle de dispositivos em ambientes reais por meio do ajuste fino de um VLM pré-treinado em duas etapas: RL offline para inicializar o modelo, seguido de RL offline-para-online. Para isso, construímos um ambiente de aprendizagem Android escalável e paralelizável, equipado com um avaliador baseado em VLM, e desenvolvemos uma abordagem de RL simples, porém eficaz, para aprendizagem nesse domínio. Nossa abordagem executa RL ponderado por vantagem, com estimadores de vantagem aprimorados para considerar a estocasticidade, juntamente com um currículo automático para derivar o sinal de aprendizagem máximo. Demonstramos a eficácia do DigiRL usando o conjunto de dados Android-in-the-Wild (AitW), onde nosso VLM de 1,3B treinado com RL alcança uma melhoria absoluta de 49,5% — de 17,7 para 67,2% de taxa de sucesso — em comparação com o ajuste fino supervisionado usando dados estáticos de demonstração humana. Esses resultados superam significativamente não apenas os melhores agentes anteriores, incluindo o AppAgent com GPT-4V (8,3% de taxa de sucesso) e o CogAgent de 17B treinado com dados do AitW (38,5%), mas também a melhor abordagem de RL autônomo anterior baseada em clonagem de comportamento filtrada (57,8%), estabelecendo assim um novo estado da arte para agentes digitais de controle de dispositivos em ambientes reais.
English
Training corpuses for vision language models (VLMs) typically lack sufficient amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal for decision-making tasks such as in-the-wild device control through graphical user interfaces (GUIs). While training with static demonstrations has shown some promise, we show that such methods fall short for controlling real GUIs due to their failure to deal with real-world stochasticity and non-stationarity not captured in static observational data. This paper introduces a novel autonomous RL approach, called DigiRL, for training in-the-wild device control agents through fine-tuning a pre-trained VLM in two stages: offline RL to initialize the model, followed by offline-to-online RL. To do this, we build a scalable and parallelizable Android learning environment equipped with a VLM-based evaluator and develop a simple yet effective RL approach for learning in this domain. Our approach runs advantage-weighted RL with advantage estimators enhanced to account for stochasticity along with an automatic curriculum for deriving maximal learning signal. We demonstrate the effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our 1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to 67.2% success rate -- over supervised fine-tuning with static human demonstration data. These results significantly surpass not only the prior best agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent trained with AitW data (38.5%), but also the prior best autonomous RL approach based on filtered behavior cloning (57.8%), thereby establishing a new state-of-the-art for digital agents for in-the-wild device control.
PDF201December 2, 2024