AlphaDrive: Sfruttare la Potenza dei Modelli Linguistici Visivi nella Guida Autonoma attraverso Apprendimento per Rinforzo e Ragionamento
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Autori: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Abstract
OpenAI o1 e DeepSeek R1 raggiungono o addirittura superano le prestazioni di livello esperto umano in domini complessi come la matematica e le scienze, con l'apprendimento per rinforzo (RL) e il ragionamento che svolgono un ruolo cruciale. Nella guida autonoma, i recenti modelli end-to-end hanno notevolmente migliorato le prestazioni di pianificazione, ma continuano a lottare con problemi a coda lunga a causa di limitate capacità di senso comune e ragionamento. Alcuni studi integrano modelli visione-linguaggio (VLMs) nella guida autonoma, ma si basano tipicamente su modelli pre-addestrati con una semplice messa a punto supervisionata (SFT) su dati di guida, senza ulteriori esplorazioni di strategie di addestramento o ottimizzazioni specificamente progettate per la pianificazione. In questo articolo, proponiamo AlphaDrive, un framework RL e di ragionamento per VLMs nella guida autonoma. AlphaDrive introduce quattro ricompense RL basate su GRPO specifiche per la pianificazione e impiega una strategia di addestramento di ragionamento per la pianificazione in due fasi che combina SFT con RL. Di conseguenza, AlphaDrive migliora significativamente sia le prestazioni di pianificazione che l'efficienza dell'addestramento rispetto all'uso esclusivo di SFT o senza ragionamento. Inoltre, siamo entusiasti di scoprire che, dopo l'addestramento RL, AlphaDrive mostra alcune capacità emergenti di pianificazione multimodale, fondamentali per migliorare la sicurezza e l'efficienza della guida. Per quanto ne sappiamo, AlphaDrive è il primo a integrare RL basata su GRPO con il ragionamento di pianificazione nella guida autonoma. Il codice verrà rilasciato per facilitare la ricerca futura.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary