AlphaDrive: Liberando o Poder dos VLMs na Condução Autônoma por meio de Aprendizado por Reforço e Raciocínio
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Autores: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Resumo
O OpenAI o1 e o DeepSeek R1 alcançam ou até superam o desempenho de especialistas humanos em domínios complexos como matemática e ciências, com o aprendizado por reforço (RL) e o raciocínio desempenhando um papel crucial. Na condução autônoma, modelos recentes de ponta a ponta melhoraram significativamente o desempenho de planejamento, mas ainda enfrentam problemas de cauda longa devido à limitação do senso comum e das habilidades de raciocínio. Alguns estudos integram modelos de visão e linguagem (VLMs) na condução autônoma, mas geralmente dependem de modelos pré-treinados com ajuste fino supervisionado (SFT) simples em dados de condução, sem uma exploração adicional de estratégias de treinamento ou otimizações especificamente adaptadas para o planejamento. Neste artigo, propomos o AlphaDrive, um framework de RL e raciocínio para VLMs na condução autônoma. O AlphaDrive introduz quatro recompensas de RL baseadas em GRPO adaptadas para o planejamento e emprega uma estratégia de treinamento de raciocínio de planejamento em duas etapas que combina SFT com RL. Como resultado, o AlphaDrive melhora significativamente tanto o desempenho de planejamento quanto a eficiência de treinamento em comparação com o uso apenas de SFT ou sem raciocínio. Além disso, também estamos entusiasmados em descobrir que, após o treinamento de RL, o AlphaDrive exibe algumas capacidades emergentes de planejamento multimodal, o que é crucial para melhorar a segurança e a eficiência na condução. Até onde sabemos, o AlphaDrive é o primeiro a integrar RL baseado em GRPO com raciocínio de planejamento na condução autônoma. O código será liberado para facilitar pesquisas futuras.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary