AlphaDrive: Liberando el Poder de los Modelos de Lenguaje Visual en la Conducción Autónoma mediante Aprendizaje por Refuerzo y Razonamiento
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Autores: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Resumen
OpenAI o1 y DeepSeek R1 logran o incluso superan el rendimiento de expertos humanos en dominios complejos como las matemáticas y las ciencias, donde el aprendizaje por refuerzo (RL) y el razonamiento desempeñan un papel crucial. En la conducción autónoma, los modelos recientes de extremo a extremo han mejorado significativamente el desempeño en planificación, pero aún enfrentan problemas de cola larga debido a capacidades limitadas de sentido común y razonamiento. Algunos estudios integran modelos de visión-lenguaje (VLMs) en la conducción autónoma, pero generalmente dependen de modelos preentrenados con un ajuste fino supervisado (SFT) simple en datos de conducción, sin explorar más a fondo estrategias de entrenamiento u optimizaciones específicamente diseñadas para la planificación. En este artículo, proponemos AlphaDrive, un marco de RL y razonamiento para VLMs en conducción autónoma. AlphaDrive introduce cuatro recompensas de RL basadas en GRPO adaptadas para la planificación y emplea una estrategia de entrenamiento de razonamiento en planificación de dos etapas que combina SFT con RL. Como resultado, AlphaDrive mejora significativamente tanto el desempeño en planificación como la eficiencia del entrenamiento en comparación con el uso exclusivo de SFT o sin razonamiento. Además, también nos entusiasma descubrir que, tras el entrenamiento con RL, AlphaDrive exhibe algunas capacidades emergentes de planificación multimodal, lo cual es crítico para mejorar la seguridad y eficiencia en la conducción. Hasta donde sabemos, AlphaDrive es el primero en integrar RL basado en GRPO con razonamiento en planificación en la conducción autónoma. El código será liberado para facilitar futuras investigaciones.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary