DigiRL: 자율 강화 학습을 통한 실환경 디바이스 제어 에이전트 훈련
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
June 14, 2024
저자: Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar
cs.AI
초록
비전 언어 모델(VLM)을 위한 훈련 코퍼스는 일반적으로 의사 결정 중심 데이터가 충분하지 않습니다. 이로 인해 기성 VLM은 그래픽 사용자 인터페이스(GUI)를 통한 실외 기기 제어와 같은 의사 결정 작업에 최적화되지 않습니다. 정적 데모를 사용한 훈련이 일부 가능성을 보여주었지만, 이러한 방법은 정적 관찰 데이터에서 포착되지 않는 실제 세계의 확률성과 비정상성을 다루지 못해 실제 GUI 제어에는 부족함이 있습니다. 본 논문은 사전 훈련된 VLM을 두 단계로 미세 조정하여 실외 기기 제어 에이전트를 훈련하기 위한 새로운 자율 강화 학습(RL) 접근법인 DigiRL을 소개합니다: 오프라인 RL로 모델을 초기화한 후, 오프라인에서 온라인으로의 RL을 수행합니다. 이를 위해, VLM 기반 평가자를 갖춘 확장 가능하고 병렬화 가능한 Android 학습 환경을 구축하고, 이 도메인에서 학습하기 위한 간단하지만 효과적인 RL 접근법을 개발했습니다. 우리의 접근법은 확률성을 고려한 이점 추정기와 최대 학습 신호를 도출하기 위한 자동 커리큘럼을 함께 사용하여 이점 가중 RL을 실행합니다. 우리는 Android-in-the-Wild(AitW) 데이터셋을 사용하여 DigiRL의 효과를 입증했으며, RL로 훈련된 1.3B VLM은 정적 인간 데모 데이터를 사용한 지도 미세 조정 대비 49.5%의 절대적 개선(17.7%에서 67.2% 성공률)을 달성했습니다. 이러한 결과는 GPT-4V를 사용한 AppAgent(8.3% 성공률)와 AitW 데이터로 훈련된 17B CogAgent(38.5%)를 포함한 이전 최고의 에이전트뿐만 아니라, 필터링된 행동 복제 기반의 이전 최고 자율 RL 접근법(57.8%)도 크게 능가하여, 실외 기기 제어를 위한 디지털 에이전트의 새로운 최첨단 기술을 확립했습니다.
English
Training corpuses for vision language models (VLMs) typically lack sufficient
amounts of decision-centric data. This renders off-the-shelf VLMs sub-optimal
for decision-making tasks such as in-the-wild device control through graphical
user interfaces (GUIs). While training with static demonstrations has shown
some promise, we show that such methods fall short for controlling real GUIs
due to their failure to deal with real-world stochasticity and non-stationarity
not captured in static observational data. This paper introduces a novel
autonomous RL approach, called DigiRL, for training in-the-wild device control
agents through fine-tuning a pre-trained VLM in two stages: offline RL to
initialize the model, followed by offline-to-online RL. To do this, we build a
scalable and parallelizable Android learning environment equipped with a
VLM-based evaluator and develop a simple yet effective RL approach for learning
in this domain. Our approach runs advantage-weighted RL with advantage
estimators enhanced to account for stochasticity along with an automatic
curriculum for deriving maximal learning signal. We demonstrate the
effectiveness of DigiRL using the Android-in-the-Wild (AitW) dataset, where our
1.3B VLM trained with RL achieves a 49.5% absolute improvement -- from 17.7 to
67.2% success rate -- over supervised fine-tuning with static human
demonstration data. These results significantly surpass not only the prior best
agents, including AppAgent with GPT-4V (8.3% success rate) and the 17B CogAgent
trained with AitW data (38.5%), but also the prior best autonomous RL approach
based on filtered behavior cloning (57.8%), thereby establishing a new
state-of-the-art for digital agents for in-the-wild device control.Summary
AI-Generated Summary