AlphaDrive : Libérer le potentiel des modèles de langage visuel dans la conduite autonome grâce à l'apprentissage par renforcement et au raisonnement
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Auteurs: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Résumé
OpenAI o1 et DeepSeek R1 atteignent, voire surpassent, les performances de niveau expert humain dans des domaines complexes comme les mathématiques et les sciences, où l'apprentissage par renforcement (RL) et le raisonnement jouent un rôle crucial. Dans le domaine de la conduite autonome, les modèles récents de bout en bout ont considérablement amélioré les performances de planification, mais ils peinent encore à résoudre des problèmes à longue traîne en raison de leurs capacités limitées en matière de bon sens et de raisonnement. Certaines études intègrent des modèles vision-langage (VLMs) dans la conduite autonome, mais elles reposent généralement sur des modèles pré-entraînés avec un simple réglage supervisé (SFT) sur des données de conduite, sans exploration approfondie des stratégies d'entraînement ou des optimisations spécifiquement adaptées à la planification. Dans cet article, nous proposons AlphaDrive, un cadre RL et de raisonnement pour les VLMs dans la conduite autonome. AlphaDrive introduit quatre récompenses RL basées sur GRPO, spécialement conçues pour la planification, et emploie une stratégie d'entraînement en deux étapes combinant SFT et RL. En conséquence, AlphaDrive améliore significativement à la fois les performances de planification et l'efficacité de l'entraînement par rapport à l'utilisation exclusive de SFT ou sans raisonnement. De plus, nous avons également eu la surprise de découvrir qu'après l'entraînement RL, AlphaDrive présente certaines capacités émergentes de planification multimodale, ce qui est crucial pour améliorer la sécurité et l'efficacité de la conduite. À notre connaissance, AlphaDrive est le premier à intégrer le RL basé sur GRPO avec le raisonnement de planification dans la conduite autonome. Le code sera publié pour faciliter les recherches futures.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary