DiffusionDrive: Modelo de Difusión Truncado para Conducción Autónoma de Extremo a Extremo
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
Autores: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
Resumen
Recientemente, el modelo de difusión ha surgido como una técnica generativa poderosa para el aprendizaje de políticas robóticas, capaz de modelar distribuciones de acciones multimodales. Aprovechar su capacidad para la conducción autónoma de extremo a extremo es una dirección prometedora. Sin embargo, los numerosos pasos de eliminación de ruido en la política de difusión robótica y la naturaleza más dinámica y abierta de las escenas de tráfico plantean desafíos sustanciales para generar diversas acciones de conducción a velocidad en tiempo real. Para abordar estos desafíos, proponemos una nueva política de difusión truncada que incorpora anclajes previos multimodales y trunca el programa de difusión, lo que permite que el modelo aprenda la eliminación de ruido desde una distribución gaussiana anclada hasta la distribución de acciones de conducción multimodales. Además, diseñamos un decodificador de difusión en cascada eficiente para una interacción mejorada con el contexto de escena condicional. El modelo propuesto, DiffusionDrive, demuestra una reducción de 10 veces en los pasos de eliminación de ruido en comparación con la política de difusión estándar, ofreciendo una diversidad y calidad superiores en solo 2 pasos. En el conjunto de datos NAVSIM orientado a la planificación, con la columna vertebral ResNet-34 alineada, DiffusionDrive logra 88.1 PDMS sin adornos, estableciendo un nuevo récord, mientras se ejecuta a una velocidad en tiempo real de 45 FPS en una NVIDIA 4090. Los resultados cualitativos en escenarios desafiantes confirman además que DiffusionDrive puede generar de manera robusta diversas acciones de conducción plausibles. El código y el modelo estarán disponibles en https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary