AlphaDrive: Het potentieel van VLMs in autonoom rijden benutten via Reinforcement Learning en Redeneren
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Auteurs: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Samenvatting
OpenAI o1 en DeepSeek R1 bereiken of overtreffen zelfs het prestatieniveau van menselijke experts in complexe domeinen zoals wiskunde en wetenschap, waarbij reinforcement learning (RL) en redeneren een cruciale rol spelen. In autonoom rijden hebben recente end-to-end-modellen de planningsprestaties aanzienlijk verbeterd, maar worstelen ze nog steeds met long-tailed problemen vanwege beperkt gezond verstand en redeneervermogen. Sommige studies integreren vision-language-modellen (VLMs) in autonoom rijden, maar deze vertrouwen doorgaans op vooraf getrainde modellen met eenvoudige supervised fine-tuning (SFT) op rijdata, zonder verdere verkenning van trainingsstrategieën of optimalisaties die specifiek zijn afgestemd op planning. In dit artikel stellen we AlphaDrive voor, een RL- en redeneerframework voor VLMs in autonoom rijden. AlphaDrive introduceert vier GRPO-gebaseerde RL-beloningen die zijn afgestemd op planning en maakt gebruik van een tweefasen planningsredeneertrainingsstrategie die SFT combineert met RL. Als resultaat verbetert AlphaDrive zowel de planningsprestaties als de trainingsefficiëntie aanzienlijk in vergelijking met het gebruik van alleen SFT of zonder redeneren. Bovendien zijn we ook enthousiast om te ontdekken dat AlphaDrive, na RL-training, enkele emergente multimodale planningscapaciteiten vertoont, wat cruciaal is voor het verbeteren van rijveiligheid en efficiëntie. Voor zover wij weten, is AlphaDrive de eerste die GRPO-gebaseerde RL integreert met planningsredeneren in autonoom rijden. Code zal worden vrijgegeven om toekomstig onderzoek te faciliteren.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary