AlphaDrive: Liberando o Poder dos VLMs na Condução Autônoma por meio de Aprendizado por Reforço e Raciocínio

Resumo

O OpenAI o1 e o DeepSeek R1 alcançam ou até superam o desempenho de especialistas humanos em domínios complexos como matemática e ciências, com o aprendizado por reforço (RL) e o raciocínio desempenhando um papel crucial. Na condução autônoma, modelos recentes de ponta a ponta melhoraram significativamente o desempenho de planejamento, mas ainda enfrentam problemas de cauda longa devido à limitação do senso comum e das habilidades de raciocínio. Alguns estudos integram modelos de visão e linguagem (VLMs) na condução autônoma, mas geralmente dependem de modelos pré-treinados com ajuste fino supervisionado (SFT) simples em dados de condução, sem uma exploração adicional de estratégias de treinamento ou otimizações especificamente adaptadas para o planejamento. Neste artigo, propomos o AlphaDrive, um framework de RL e raciocínio para VLMs na condução autônoma. O AlphaDrive introduz quatro recompensas de RL baseadas em GRPO adaptadas para o planejamento e emprega uma estratégia de treinamento de raciocínio de planejamento em duas etapas que combina SFT com RL. Como resultado, o AlphaDrive melhora significativamente tanto o desempenho de planejamento quanto a eficiência de treinamento em comparação com o uso apenas de SFT ou sem raciocínio. Além disso, também estamos entusiasmados em descobrir que, após o treinamento de RL, o AlphaDrive exibe algumas capacidades emergentes de planejamento multimodal, o que é crucial para melhorar a segurança e a eficiência na condução. Até onde sabemos, o AlphaDrive é o primeiro a integrar RL baseado em GRPO com raciocínio de planejamento na condução autônoma. O código será liberado para facilitar pesquisas futuras.

English

OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

AlphaDrive: Liberando o Poder dos VLMs na Condução Autônoma por meio de Aprendizado por Reforço e Raciocínio

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Resumo

Support