ChatPaper.aiChatPaper

AlphaDrive: Het potentieel van VLMs in autonoom rijden benutten via Reinforcement Learning en Redeneren

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

March 10, 2025
Auteurs: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Samenvatting

OpenAI o1 en DeepSeek R1 bereiken of overtreffen zelfs het prestatieniveau van menselijke experts in complexe domeinen zoals wiskunde en wetenschap, waarbij reinforcement learning (RL) en redeneren een cruciale rol spelen. In autonoom rijden hebben recente end-to-end-modellen de planningsprestaties aanzienlijk verbeterd, maar worstelen ze nog steeds met long-tailed problemen vanwege beperkt gezond verstand en redeneervermogen. Sommige studies integreren vision-language-modellen (VLMs) in autonoom rijden, maar deze vertrouwen doorgaans op vooraf getrainde modellen met eenvoudige supervised fine-tuning (SFT) op rijdata, zonder verdere verkenning van trainingsstrategieën of optimalisaties die specifiek zijn afgestemd op planning. In dit artikel stellen we AlphaDrive voor, een RL- en redeneerframework voor VLMs in autonoom rijden. AlphaDrive introduceert vier GRPO-gebaseerde RL-beloningen die zijn afgestemd op planning en maakt gebruik van een tweefasen planningsredeneertrainingsstrategie die SFT combineert met RL. Als resultaat verbetert AlphaDrive zowel de planningsprestaties als de trainingsefficiëntie aanzienlijk in vergelijking met het gebruik van alleen SFT of zonder redeneren. Bovendien zijn we ook enthousiast om te ontdekken dat AlphaDrive, na RL-training, enkele emergente multimodale planningscapaciteiten vertoont, wat cruciaal is voor het verbeteren van rijveiligheid en efficiëntie. Voor zover wij weten, is AlphaDrive de eerste die GRPO-gebaseerde RL integreert met planningsredeneren in autonoom rijden. Code zal worden vrijgegeven om toekomstig onderzoek te faciliteren.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

Summary

AI-Generated Summary

PDF231March 11, 2025