AlphaDrive: 강화 학습과 추론을 통해 자율 주행에서 시각 언어 모델의 힘을 발휘하기
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
저자: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
초록
OpenAI o1과 DeepSeek R1은 강화 학습(RL)과 추론이 중요한 역할을 하며, 수학 및 과학과 같은 복잡한 분야에서 인간 전문가 수준의 성능을 달성하거나 이를 뛰어넘습니다. 자율 주행 분야에서는 최근의 end-to-end 모델들이 계획 성능을 크게 향상시켰지만, 여전히 상식과 추론 능력의 한계로 인해 긴 꼬리 문제(long-tailed problem)에 어려움을 겪고 있습니다. 일부 연구에서는 시각-언어 모델(VLM)을 자율 주행에 통합하고 있지만, 이들은 일반적으로 운전 데이터에 대한 간단한 지도 미세 조정(SFT)을 통해 사전 훈련된 모델에 의존하며, 계획에 특화된 훈련 전략이나 최적화를 추가로 탐구하지 않습니다. 본 논문에서는 자율 주행을 위한 VLM의 RL 및 추론 프레임워크인 AlphaDrive를 제안합니다. AlphaDrive는 계획에 특화된 네 가지 GRPO 기반 RL 보상을 도입하고, SFT와 RL을 결합한 두 단계의 계획 추론 훈련 전략을 사용합니다. 그 결과, AlphaDrive는 SFT만 사용하거나 추론을 사용하지 않은 경우에 비해 계획 성능과 훈련 효율성을 크게 향상시킵니다. 또한, RL 훈련 후 AlphaDrive가 다중 모드 계획 능력을 일부 나타내는 것을 발견하게 되어 매우 기쁘게 생각합니다. 이는 운전 안전성과 효율성을 향상시키는 데 매우 중요합니다. 우리가 아는 한, AlphaDrive는 GRPO 기반 RL과 계획 추론을 자율 주행에 통합한 첫 번째 사례입니다. 향후 연구를 위해 코드를 공개할 예정입니다.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary