GenieDrive: Rumo a um Modelo de Mundo de Condução Consciente da Física com Geração de Vídeo Guiada por Ocupação 4D

Resumo

Um modelo de mundo de condução com consciência física é essencial para o planejamento de direção, a síntese de dados fora de distribuição e a avaliação em circuito fechado. No entanto, os métodos existentes frequentemente dependem de um único modelo de difusão para mapear diretamente ações de condução para vídeos, o que torna a aprendizagem difícil e resulta em saídas fisicamente inconsistentes. Para superar esses desafios, propomos o GenieDrive, uma nova estrutura projetada para a geração de vídeos de condução com consciência física. Nossa abordagem começa gerando ocupação 4D, que serve como base física para a subsequente geração de vídeo. A ocupação 4D contém informações físicas ricas, incluindo estruturas 3D de alta resolução e dinâmicas. Para facilitar a compressão eficaz de tal ocupação de alta resolução, propomos um VAE que codifica a ocupação numa representação latente de tri-plano, reduzindo o tamanho latente para apenas 58% do usado em métodos anteriores. Introduzimos ainda a Atenção de Controlo Mútua (MCA) para modelar com precisão a influência do controlo na evolução da ocupação, e treinamos conjuntamente o VAE e o módulo de previsão subsequente de forma integral para maximizar a precisão da previsão. Juntas, estas soluções produzem uma melhoria de 7,2% no mIoU de previsão a uma velocidade de inferência de 41 FPS, utilizando apenas 3,47 M de parâmetros. Adicionalmente, é introduzida uma Atenção Multi-Vista Normalizada no modelo de geração de vídeo para gerar vídeos de condução multi-vista com orientação da nossa ocupação 4D, melhorando significativamente a qualidade do vídeo com uma redução de 20,7% no FVD. Experiências demonstram que o GenieDrive permite uma geração de vídeos de condução altamente controlável, consistente em multi-vista e com consciência física.

English

Physics-aware driving world model is essential for drive planning, out-of-distribution data synthesis, and closed-loop evaluation. However, existing methods often rely on a single diffusion model to directly map driving actions to videos, which makes learning difficult and leads to physically inconsistent outputs. To overcome these challenges, we propose GenieDrive, a novel framework designed for physics-aware driving video generation. Our approach starts by generating 4D occupancy, which serves as a physics-informed foundation for subsequent video generation. 4D occupancy contains rich physical information, including high-resolution 3D structures and dynamics. To facilitate effective compression of such high-resolution occupancy, we propose a VAE that encodes occupancy into a latent tri-plane representation, reducing the latent size to only 58% of that used in previous methods. We further introduce Mutual Control Attention (MCA) to accurately model the influence of control on occupancy evolution, and we jointly train the VAE and the subsequent prediction module in an end-to-end manner to maximize forecasting accuracy. Together, these designs yield a 7.2% improvement in forecasting mIoU at an inference speed of 41 FPS, while using only 3.47 M parameters. Additionally, a Normalized Multi-View Attention is introduced in the video generation model to generate multi-view driving videos with guidance from our 4D occupancy, significantly improving video quality with a 20.7% reduction in FVD. Experiments demonstrate that GenieDrive enables highly controllable, multi-view consistent, and physics-aware driving video generation.

GenieDrive: Rumo a um Modelo de Mundo de Condução Consciente da Física com Geração de Vídeo Guiada por Ocupação 4D

GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation

Resumo

Support