ChatPaper.aiChatPaper

GenieDrive: Hacia un Modelo de Mundo de Conducción Consciente de la Física con Generación de Vídeo Guiada por Ocupación 4D

GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation

December 14, 2025
Autores: Zhenya Yang, Zhe Liu, Yuxiang Lu, Liping Hou, Chenxuan Miao, Siyi Peng, Bailan Feng, Xiang Bai, Hengshuang Zhao
cs.AI

Resumen

El modelo del mundo de conducción con conciencia física es esencial para la planificación de la conducción, la síntesis de datos fuera de distribución y la evaluación en bucle cerrado. Sin embargo, los métodos existentes a menudo dependen de un único modelo de difusión para mapear directamente las acciones de conducción a videos, lo que dificulta el aprendizaje y genera resultados físicamente inconsistentes. Para superar estos desafíos, proponemos GenieDrive, un marco novedoso diseñado para la generación de videos de conducción con conciencia física. Nuestro enfoque comienza generando una ocupación 4D, que sirve como base física para la posterior generación de video. La ocupación 4D contiene información física rica, incluyendo estructuras 3D de alta resolución y dinámicas. Para facilitar la compresión efectiva de dicha ocupación de alta resolución, proponemos un VAE que codifica la ocupación en una representación latente de tri-plano, reduciendo el tamaño latente a solo el 58% del utilizado en métodos anteriores. Además, introducimos la Atención de Control Mutuo (MCA) para modelar con precisión la influencia del control en la evolución de la ocupación, y entrenamos conjuntamente el VAE y el módulo de predicción subsiguiente de manera integral para maximizar la precisión de la predicción. En conjunto, estos diseños producen una mejora del 7.2% en el mIoU de predicción a una velocidad de inferencia de 41 FPS, mientras utilizan solo 3.47 M de parámetros. Adicionalmente, se introduce una Atención Multi-Vista Normalizada en el modelo de generación de video para generar videos de conducción multi-vista con guía de nuestra ocupación 4D, mejorando significativamente la calidad del video con una reducción del 20.7% en FVD. Los experimentos demuestran que GenieDrive permite una generación de videos de conducción altamente controllable, consistente en multi-vista y con conciencia física.
English
Physics-aware driving world model is essential for drive planning, out-of-distribution data synthesis, and closed-loop evaluation. However, existing methods often rely on a single diffusion model to directly map driving actions to videos, which makes learning difficult and leads to physically inconsistent outputs. To overcome these challenges, we propose GenieDrive, a novel framework designed for physics-aware driving video generation. Our approach starts by generating 4D occupancy, which serves as a physics-informed foundation for subsequent video generation. 4D occupancy contains rich physical information, including high-resolution 3D structures and dynamics. To facilitate effective compression of such high-resolution occupancy, we propose a VAE that encodes occupancy into a latent tri-plane representation, reducing the latent size to only 58% of that used in previous methods. We further introduce Mutual Control Attention (MCA) to accurately model the influence of control on occupancy evolution, and we jointly train the VAE and the subsequent prediction module in an end-to-end manner to maximize forecasting accuracy. Together, these designs yield a 7.2% improvement in forecasting mIoU at an inference speed of 41 FPS, while using only 3.47 M parameters. Additionally, a Normalized Multi-View Attention is introduced in the video generation model to generate multi-view driving videos with guidance from our 4D occupancy, significantly improving video quality with a 20.7% reduction in FVD. Experiments demonstrate that GenieDrive enables highly controllable, multi-view consistent, and physics-aware driving video generation.
PDF52December 17, 2025