ChatPaper.aiChatPaper

AlphaDrive: Раскрытие потенциала визуально-языковых моделей в автономном вождении с использованием обучения с подкреплением и логического вывода

AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

March 10, 2025
Авторы: Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang
cs.AI

Аннотация

OpenAI o1 и DeepSeek R1 достигают или даже превосходят уровень экспертов-людей в сложных областях, таких как математика и наука, где ключевую роль играют обучение с подкреплением (RL) и рассуждения. В области автономного вождения современные end-to-end модели значительно улучшили производительность планирования, но по-прежнему сталкиваются с проблемами, связанными с редкими случаями, из-за ограниченного здравого смысла и способностей к рассуждению. Некоторые исследования интегрируют модели, объединяющие зрение и язык (VLMs), в автономное вождение, но они обычно полагаются на предварительно обученные модели с простой тонкой настройкой (SFT) на данных вождения, без дальнейшего изучения стратегий обучения или оптимизаций, специально адаптированных для планирования. В данной статье мы предлагаем AlphaDrive — фреймворк RL и рассуждений для VLMs в автономном вождении. AlphaDrive вводит четыре RL-награды на основе GRPO, адаптированные для планирования, и использует двухэтапную стратегию обучения рассуждений для планирования, которая сочетает SFT с RL. В результате AlphaDrive значительно улучшает как производительность планирования, так и эффективность обучения по сравнению с использованием только SFT или без рассуждений. Более того, мы также с радостью обнаружили, что после RL-обучения AlphaDrive демонстрирует некоторые возникающие мультимодальные способности к планированию, что критически важно для повышения безопасности и эффективности вождения. Насколько нам известно, AlphaDrive является первым, кто интегрирует RL на основе GRPO с рассуждениями для планирования в автономное вождение. Код будет опубликован для содействия будущим исследованиям.
English
OpenAI o1 and DeepSeek R1 achieve or even surpass human expert-level performance in complex domains like mathematics and science, with reinforcement learning (RL) and reasoning playing a crucial role. In autonomous driving, recent end-to-end models have greatly improved planning performance but still struggle with long-tailed problems due to limited common sense and reasoning abilities. Some studies integrate vision-language models (VLMs) into autonomous driving, but they typically rely on pre-trained models with simple supervised fine-tuning (SFT) on driving data, without further exploration of training strategies or optimizations specifically tailored for planning. In this paper, we propose AlphaDrive, a RL and reasoning framework for VLMs in autonomous driving. AlphaDrive introduces four GRPO-based RL rewards tailored for planning and employs a two-stage planning reasoning training strategy that combines SFT with RL. As a result, AlphaDrive significantly improves both planning performance and training efficiency compared to using only SFT or without reasoning. Moreover, we are also excited to discover that, following RL training, AlphaDrive exhibits some emergent multimodal planning capabilities, which is critical for improving driving safety and efficiency. To the best of our knowledge, AlphaDrive is the first to integrate GRPO-based RL with planning reasoning into autonomous driving. Code will be released to facilitate future research.

Summary

AI-Generated Summary

PDF231March 11, 2025