AlphaDrive : Libérer le potentiel des modèles de langage visuel dans la conduite autonome grâce à l'apprentissage par renforcement et au raisonnement

papers.abstract

OpenAI o1 et DeepSeek R1 atteignent, voire surpassent, les performances de niveau expert humain dans des domaines complexes comme les mathématiques et les sciences, où l'apprentissage par renforcement (RL) et le raisonnement jouent un rôle crucial. Dans le domaine de la conduite autonome, les modèles récents de bout en bout ont considérablement amélioré les performances de planification, mais ils peinent encore à résoudre des problèmes à longue traîne en raison de leurs capacités limitées en matière de bon sens et de raisonnement. Certaines études intègrent des modèles vision-langage (VLMs) dans la conduite autonome, mais elles reposent généralement sur des modèles pré-entraînés avec un simple réglage supervisé (SFT) sur des données de conduite, sans exploration approfondie des stratégies d'entraînement ou des optimisations spécifiquement adaptées à la planification. Dans cet article, nous proposons AlphaDrive, un cadre RL et de raisonnement pour les VLMs dans la conduite autonome. AlphaDrive introduit quatre récompenses RL basées sur GRPO, spécialement conçues pour la planification, et emploie une stratégie d'entraînement en deux étapes combinant SFT et RL. En conséquence, AlphaDrive améliore significativement à la fois les performances de planification et l'efficacité de l'entraînement par rapport à l'utilisation exclusive de SFT ou sans raisonnement. De plus, nous avons également eu la surprise de découvrir qu'après l'entraînement RL, AlphaDrive présente certaines capacités émergentes de planification multimodale, ce qui est crucial pour améliorer la sécurité et l'efficacité de la conduite. À notre connaissance, AlphaDrive est le premier à intégrer le RL basé sur GRPO avec le raisonnement de planification dans la conduite autonome. Le code sera publié pour faciliter les recherches futures.

English

OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

AlphaDrive : Libérer le potentiel des modèles de langage visuel dans la conduite autonome grâce à l'apprentissage par renforcement et au raisonnement

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

papers.abstract

Support