AlphaDrive: Раскрытие потенциала визуально-языковых моделей в автономном вождении с использованием обучения с подкреплением и логического вывода
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning
March 10, 2025
Авторы: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI
Аннотация
OpenAI o1 и DeepSeek R1 достигают или даже превосходят уровень экспертов-людей в сложных областях, таких как математика и наука, где ключевую роль играют обучение с подкреплением (RL) и рассуждения. В области автономного вождения современные end-to-end модели значительно улучшили производительность планирования, но по-прежнему сталкиваются с проблемами, связанными с редкими случаями, из-за ограниченного здравого смысла и способностей к рассуждению. Некоторые исследования интегрируют модели, объединяющие зрение и язык (VLMs), в автономное вождение, но они обычно полагаются на предварительно обученные модели с простой тонкой настройкой (SFT) на данных вождения, без дальнейшего изучения стратегий обучения или оптимизаций, специально адаптированных для планирования. В данной статье мы предлагаем AlphaDrive — фреймворк RL и рассуждений для VLMs в автономном вождении. AlphaDrive вводит четыре RL-награды на основе GRPO, адаптированные для планирования, и использует двухэтапную стратегию обучения рассуждений для планирования, которая сочетает SFT с RL. В результате AlphaDrive значительно улучшает как производительность планирования, так и эффективность обучения по сравнению с использованием только SFT или без рассуждений. Более того, мы также с радостью обнаружили, что после RL-обучения AlphaDrive демонстрирует некоторые возникающие мультимодальные способности к планированию, что критически важно для повышения безопасности и эффективности вождения. Насколько нам известно, AlphaDrive является первым, кто интегрирует RL на основе GRPO с рассуждениями для планирования в автономное вождение. Код будет опубликован для содействия будущим исследованиям.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level
performance in complex domains like mathematics and science, with reinforcement
learning (RL) and reasoning playing a crucial role. In autonomous driving,
recent end-to-end models have greatly improved planning performance but still
struggle with long-tailed problems due to limited common sense and reasoning
abilities. Some studies integrate vision-language models (VLMs) into autonomous
driving, but they typically rely on pre-trained models with simple supervised
fine-tuning (SFT) on driving data, without further exploration of training
strategies or optimizations specifically tailored for planning. In this paper,
we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous
driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning
and employs a two-stage planning reasoning training strategy that combines SFT
with RL. As a result, AlphaDrive significantly improves both planning
performance and training efficiency compared to using only SFT or without
reasoning. Moreover, we are also excited to discover that, following RL
training, AlphaDrive exhibits some emergent multimodal planning capabilities,
which is critical for improving driving safety and efficiency. To the best of
our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning
reasoning into autonomous driving. Code will be released to facilitate future
research.Summary
AI-Generated Summary