DiffusionDrive: Trunkiertes Diffusionsmodell für autonomes Fahren von Anfang bis Ende
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
Autoren: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
Zusammenfassung
In letzter Zeit hat sich das Diffusionsmodell als leistungsstarke generative Technik für das Lernen von Roboterstrategien etabliert, das in der Lage ist, Mehrmodus-Aktionsverteilungen zu modellieren. Die Nutzung seiner Fähigkeit für autonomes Fahren von Ende zu Ende ist eine vielversprechende Richtung. Die zahlreichen Rauschunterdrückungsschritte in der robotischen Diffusionsstrategie und die dynamischere, offene Natur von Verkehrsszenen stellen jedoch erhebliche Herausforderungen für die Generierung verschiedener Fahraktionen in Echtzeitgeschwindigkeit dar. Um diese Herausforderungen anzugehen, schlagen wir eine neuartige abgeschnittene Diffusionsstrategie vor, die vorherige Mehrmodus-Anker einbezieht und den Diffusionszeitplan abschneidet, um dem Modell das Lernen der Rauschunterdrückung von verankerten Gaußverteilungen zur Mehrmodus-Fahraktionsverteilung zu ermöglichen. Darüber hinaus entwerfen wir einen effizienten Kaskaden-Diffusionsdecoder für eine verbesserte Interaktion mit bedingtem Szenenkontext. Das vorgeschlagene Modell, DiffusionDrive, zeigt eine 10-fache Reduzierung der Rauschunterdrückungsschritte im Vergleich zur Standard-Diffusionsstrategie und liefert überlegene Vielfalt und Qualität in nur 2 Schritten. Auf dem planungsorientierten NAVSIM-Datensatz, mit dem ausgerichteten ResNet-34-Backbone, erreicht DiffusionDrive 88,1 PDMS ohne Schnickschnack und setzt damit einen neuen Rekord, während es mit einer Echtzeitgeschwindigkeit von 45 FPS auf einer NVIDIA 4090 läuft. Qualitative Ergebnisse in herausfordernden Szenarien bestätigen weiterhin, dass DiffusionDrive robust verschiedene plausible Fahraktionen generieren kann. Der Code und das Modell sind unter https://github.com/hustvl/DiffusionDrive verfügbar.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary