ChatPaper.aiChatPaper

DiffusionDrive: Усеченная модель диффузии для автономного вождения от начала и до конца

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

November 22, 2024
Авторы: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI

Аннотация

Недавно модель диффузии стала мощным генеративным методом для обучения политике роботов, способным моделировать распределения действий с несколькими режимами. Использование ее возможностей для автономного вождения "от начала и до конца" является многообещающим направлением. Однако многочисленные этапы подавления шума в роботизированной политике диффузии и более динамичная, открытая природа сцен дорожного движения представляют существенные вызовы для генерации разнообразных действий вождения в реальном времени. Для решения этих проблем мы предлагаем новую усеченную политику диффузии, которая включает в себя предварительные многорежимные якоря и усекает график диффузии, позволяя модели изучать подавление шума от якорной гауссовой дистрибуции к многорежимному распределению действий вождения. Кроме того, мы разрабатываем эффективный каскадный декодер диффузии для улучшенного взаимодействия с условным контекстом сцены. Предложенная модель, DiffusionDrive, демонстрирует уменьшение количества этапов подавления шума в 10 раз по сравнению с обычной политикой диффузии, обеспечивая превосходное разнообразие и качество всего за 2 шага. На наборе данных NAVSIM, ориентированном на планирование, с использованием основы ResNet-34, DiffusionDrive достигает 88,1 PDMS без лишних украшательств, устанавливая новый рекорд, работая при скорости реального времени 45 FPS на NVIDIA 4090. Качественные результаты на сложных сценариях дополнительно подтверждают, что DiffusionDrive может надежно генерировать разнообразные правдоподобные действия вождения. Код и модель будут доступны по ссылке https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10times reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.

Summary

AI-Generated Summary

PDF152November 28, 2024