DiffusionDrive : Modèle de Diffusion Tronqué pour la Conduite Autonome de Bout en Bout
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
Auteurs: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
Résumé
Récemment, le modèle de diffusion a émergé en tant que technique générative puissante pour l'apprentissage de politiques robotiques, capable de modéliser des distributions d'actions multi-mode. Exploiter sa capacité pour la conduite autonome de bout en bout est une direction prometteuse. Cependant, les nombreuses étapes de débruitage dans la politique de diffusion robotique et la nature plus dynamique et ouverte des scènes de circulation posent des défis substantiels pour générer diverses actions de conduite à une vitesse en temps réel. Pour relever ces défis, nous proposons une nouvelle politique de diffusion tronquée qui intègre des ancres multi-mode antérieures et tronque le calendrier de diffusion, permettant au modèle d'apprendre le débruitage de la distribution d'actions de conduite multi-mode ancrée gaussienne. De plus, nous concevons un décodeur de diffusion en cascade efficace pour une interaction améliorée avec le contexte de scène conditionnel. Le modèle proposé, DiffusionDrive, démontre une réduction de 10 fois des étapes de débruitage par rapport à la politique de diffusion classique, offrant une diversité et une qualité supérieures en seulement 2 étapes. Sur l'ensemble de données NAVSIM orienté vers la planification, avec l'épine dorsale ResNet-34 alignée, DiffusionDrive atteint 88,1 PDMS sans artifices, établissant un nouveau record, tout en fonctionnant à une vitesse en temps réel de 45 FPS sur un NVIDIA 4090. Les résultats qualitatifs sur des scénarios difficiles confirment en outre que DiffusionDrive peut générer de manière robuste diverses actions de conduite plausibles. Le code et le modèle seront disponibles sur https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary