DigiRL: Обучение агентов управления устройствами на местности с использованием автономного обучения с подкреплением
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
Авторы: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
Аннотация
Тренировочные корпуса для моделей визуального языка (VLM) обычно не содержат достаточного количества данных, связанных с принятием решений. Это делает готовые к использованию VLM неоптимальными для задач принятия решений, таких как управление устройствами в реальном мире через графические пользовательские интерфейсы (GUI). Хотя обучение на статических демонстрациях показало определенный потенциал, мы показываем, что такие методы недостаточны для управления реальными GUI из-за неспособности справиться с стохастичностью и нестационарностью реального мира, которые не учитываются в статических наблюдательных данных. В данной статье представлен новый автономный подход к обучению RL, названный DigiRL, для обучения агентов управления устройствами в реальном мире путем дообучения заранее обученной модели VLM в два этапа: RL в оффлайне для инициализации модели, а затем переход к RL в онлайне. Для этого мы создаем масштабируемую и параллельную среду обучения на Android, оснащенную оценщиком на основе VLM, и разрабатываем простой, но эффективный подход RL для обучения в этой области. Наш подход использует RL с взвешенными преимуществами и улучшенными оценщиками преимуществ для учета стохастичности, а также автоматическую программу обучения для получения максимального сигнала обучения. Мы демонстрируем эффективность DigiRL, используя набор данных Android-in-the-Wild (AitW), где наша модель VLM объемом 1,3 млрд параметров, обученная с помощью RL, достигает абсолютного улучшения в 49,5% -- с 17,7% до 67,2% успешных действий -- по сравнению с обучением с учителем на статических данных демонстраций. Эти результаты значительно превосходят не только предыдущих лучших агентов, включая AppAgent с GPT-4V (8,3% успешных действий) и CogAgent объемом 17 млрд параметров, обученного на данных AitW (38,5%), но и предыдущий лучший автономный подход RL на основе фильтрованного клонирования поведения (57,8%), тем самым устанавливая новый уровень качества для цифровых агентов управления устройствами в реальном мире.
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.Summary
AI-Generated Summary