ChatPaper.aiChatPaper

DiffusionDrive : Modèle de Diffusion Tronqué pour la Conduite Autonome de Bout en Bout

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

November 22, 2024
Auteurs: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI

Résumé

Récemment, le modèle de diffusion a émergé en tant que technique générative puissante pour l'apprentissage de politiques robotiques, capable de modéliser des distributions d'actions multi-mode. Exploiter sa capacité pour la conduite autonome de bout en bout est une direction prometteuse. Cependant, les nombreuses étapes de débruitage dans la politique de diffusion robotique et la nature plus dynamique et ouverte des scènes de circulation posent des défis substantiels pour générer diverses actions de conduite à une vitesse en temps réel. Pour relever ces défis, nous proposons une nouvelle politique de diffusion tronquée qui intègre des ancres multi-mode antérieures et tronque le calendrier de diffusion, permettant au modèle d'apprendre le débruitage de la distribution d'actions de conduite multi-mode ancrée gaussienne. De plus, nous concevons un décodeur de diffusion en cascade efficace pour une interaction améliorée avec le contexte de scène conditionnel. Le modèle proposé, DiffusionDrive, démontre une réduction de 10 fois des étapes de débruitage par rapport à la politique de diffusion classique, offrant une diversité et une qualité supérieures en seulement 2 étapes. Sur l'ensemble de données NAVSIM orienté vers la planification, avec l'épine dorsale ResNet-34 alignée, DiffusionDrive atteint 88,1 PDMS sans artifices, établissant un nouveau record, tout en fonctionnant à une vitesse en temps réel de 45 FPS sur un NVIDIA 4090. Les résultats qualitatifs sur des scénarios difficiles confirment en outre que DiffusionDrive peut générer de manière robuste diverses actions de conduite plausibles. Le code et le modèle seront disponibles sur https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10times reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.

Summary

AI-Generated Summary

PDF152November 28, 2024