AlphaDrive: Sfruttare la Potenza dei Modelli Linguistici Visivi nella Guida Autonoma attraverso Apprendimento per Rinforzo e Ragionamento

Abstract

OpenAI o1 e DeepSeek R1 raggiungono o addirittura superano le prestazioni di livello esperto umano in domini complessi come la matematica e le scienze, con l'apprendimento per rinforzo (RL) e il ragionamento che svolgono un ruolo cruciale. Nella guida autonoma, i recenti modelli end-to-end hanno notevolmente migliorato le prestazioni di pianificazione, ma continuano a lottare con problemi a coda lunga a causa di limitate capacità di senso comune e ragionamento. Alcuni studi integrano modelli visione-linguaggio (VLMs) nella guida autonoma, ma si basano tipicamente su modelli pre-addestrati con una semplice messa a punto supervisionata (SFT) su dati di guida, senza ulteriori esplorazioni di strategie di addestramento o ottimizzazioni specificamente progettate per la pianificazione. In questo articolo, proponiamo AlphaDrive, un framework RL e di ragionamento per VLMs nella guida autonoma. AlphaDrive introduce quattro ricompense RL basate su GRPO specifiche per la pianificazione e impiega una strategia di addestramento di ragionamento per la pianificazione in due fasi che combina SFT con RL. Di conseguenza, AlphaDrive migliora significativamente sia le prestazioni di pianificazione che l'efficienza dell'addestramento rispetto all'uso esclusivo di SFT o senza ragionamento. Inoltre, siamo entusiasti di scoprire che, dopo l'addestramento RL, AlphaDrive mostra alcune capacità emergenti di pianificazione multimodale, fondamentali per migliorare la sicurezza e l'efficienza della guida. Per quanto ne sappiamo, AlphaDrive è il primo a integrare RL basata su GRPO con il ragionamento di pianificazione nella guida autonoma. Il codice verrà rilasciato per facilitare la ricerca futura.

English

OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

AlphaDrive: Sfruttare la Potenza dei Modelli Linguistici Visivi nella Guida Autonoma attraverso Apprendimento per Rinforzo e Ragionamento

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

Abstract

Support