DiffusionDrive: Modelo de Difusão Truncada para Direção Autônoma de Ponta a Ponta
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
November 22, 2024
Autores: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
cs.AI
Resumo
Recentemente, o modelo de difusão emergiu como uma técnica generativa poderosa para o aprendizado de políticas robóticas, capaz de modelar distribuições de ação multi-modal. Aproveitar sua capacidade para direção autônoma de ponta a ponta é uma direção promissora. No entanto, os inúmeros passos de remoção de ruído na política de difusão robótica e a natureza mais dinâmica e aberta das cenas de tráfego apresentam desafios substanciais para gerar ações de direção diversas em tempo real. Para enfrentar esses desafios, propomos uma nova política de difusão truncada que incorpora âncoras multi-modais prévias e trunca o cronograma de difusão, permitindo que o modelo aprenda a remoção de ruído da distribuição de ação de direção multi-modal ancorada da distribuição gaussiana. Além disso, projetamos um decodificador de difusão em cascata eficiente para uma interação aprimorada com o contexto da cena condicional. O modelo proposto, DiffusionDrive, demonstra uma redução de 10 vezes nos passos de remoção de ruído em comparação com a política de difusão convencional, proporcionando diversidade e qualidade superiores em apenas 2 passos. No conjunto de dados NAVSIM orientado para planejamento, com a espinha dorsal ResNet-34 alinhada, o DiffusionDrive alcança 88,1 PDMS sem enfeites, estabelecendo um novo recorde, enquanto opera em tempo real a 45 FPS em um NVIDIA 4090. Resultados qualitativos em cenários desafiadores confirmam ainda mais que o DiffusionDrive pode gerar robustamente diversas ações de direção plausíveis. O código e o modelo estarão disponíveis em https://github.com/hustvl/DiffusionDrive.
English
Recently, the diffusion model has emerged as a powerful generative technique
for robotic policy learning, capable of modeling multi-mode action
distributions. Leveraging its capability for end-to-end autonomous driving is a
promising direction. However, the numerous denoising steps in the robotic
diffusion policy and the more dynamic, open-world nature of traffic scenes pose
substantial challenges for generating diverse driving actions at a real-time
speed. To address these challenges, we propose a novel truncated diffusion
policy that incorporates prior multi-mode anchors and truncates the diffusion
schedule, enabling the model to learn denoising from anchored Gaussian
distribution to the multi-mode driving action distribution. Additionally, we
design an efficient cascade diffusion decoder for enhanced interaction with
conditional scene context. The proposed model, DiffusionDrive, demonstrates
10times reduction in denoising steps compared to vanilla diffusion policy,
delivering superior diversity and quality in just 2 steps. On the
planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone,
DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new
record, while running at a real-time speed of 45 FPS on an NVIDIA 4090.
Qualitative results on challenging scenarios further confirm that
DiffusionDrive can robustly generate diverse plausible driving actions. Code
and model will be available at https://github.com/hustvl/DiffusionDrive.Summary
AI-Generated Summary