ChatPaper.aiChatPaper

DiffusionDrive: Afgekapt Diffusie Model voor End-to-End Autonoom Rijden

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

November 22, 2024
Auteurs: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI

Samenvatting

Onlangs is het diffusiemodel naar voren gekomen als een krachtige generatieve techniek voor het leren van robotbeleid, in staat om multi-mode actieverdelingen te modelleren. Het benutten van zijn vermogen voor end-to-end autonoom rijden is een veelbelovende richting. Echter, de talrijke denoising-stappen in het robotdiffusiebeleid en de meer dynamische, open-wereld aard van verkeersscènes vormen aanzienlijke uitdagingen voor het genereren van diverse rijacties op realtime snelheid. Om deze uitdagingen aan te pakken, stellen we een nieuw afgekapt diffusiebeleid voor dat voorafgaande multi-mode ankers incorporeert en het diffusieschema afkapt, waardoor het model denoising kan leren van een verankerde Gauss-verdeling naar de multi-mode rijactieverdeling. Daarnaast ontwerpen we een efficiënte cascade diffusie-decoder voor verbeterde interactie met conditionele scènecontext. Het voorgestelde model, DiffusionDrive, toont een 10-voudige vermindering in denoising-stappen in vergelijking met het standaard diffusiebeleid, met superieure diversiteit en kwaliteit in slechts 2 stappen. Op de planningsgerichte NAVSIM-dataset, met de uitgelijnde ResNet-34 ruggengraat, behaalt DiffusionDrive 88.1 PDMS zonder toeters en bellen, wat een nieuw record vestigt, terwijl het draait op een realtime snelheid van 45 FPS op een NVIDIA 4090. Kwalitatieve resultaten in uitdagende scenario's bevestigen verder dat DiffusionDrive robuust diverse plausibele rijacties kan genereren. Code en model zijn beschikbaar op https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10times reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.

Summary

AI-Generated Summary

PDF152November 28, 2024