MagicDriveDiT: Generación de Videos Largos de Alta Resolución para Conducción Autónoma con Control Adaptativo

Resumen

El rápido avance de los modelos de difusión ha mejorado significativamente la síntesis de video, especialmente en la generación de video controlable, lo cual es esencial para aplicaciones como la conducción autónoma. Sin embargo, los métodos existentes se ven limitados por la escalabilidad y la integración de condiciones de control, sin lograr satisfacer las necesidades de videos de alta resolución y larga duración para aplicaciones de conducción autónoma. En este documento, presentamos MagicDriveDiT, un enfoque novedoso basado en la arquitectura DiT, que aborda estos desafíos. Nuestro método mejora la escalabilidad a través de la coincidencia de flujos y emplea una estrategia de entrenamiento progresiva para manejar escenarios complejos. Al incorporar codificación condicional espacio-temporal, MagicDriveDiT logra un control preciso sobre latentes espacio-temporales. Experimentos exhaustivos muestran su rendimiento superior en la generación de videos realistas de escenas callejeras con mayor resolución y más cuadros. MagicDriveDiT mejora significativamente la calidad de generación de video y los controles espacio-temporales, ampliando sus aplicaciones potenciales en diversas tareas de conducción autónoma.

English

The rapid advancement of diffusion models has greatly improved video synthesis, especially in controllable video generation, which is essential for applications like autonomous driving. However, existing methods are limited by scalability and how control conditions are integrated, failing to meet the needs for high-resolution and long videos for autonomous driving applications. In this paper, we introduce MagicDriveDiT, a novel approach based on the DiT architecture, and tackle these challenges. Our method enhances scalability through flow matching and employs a progressive training strategy to manage complex scenarios. By incorporating spatial-temporal conditional encoding, MagicDriveDiT achieves precise control over spatial-temporal latents. Comprehensive experiments show its superior performance in generating realistic street scene videos with higher resolution and more frames. MagicDriveDiT significantly improves video generation quality and spatial-temporal controls, expanding its potential applications across various tasks in autonomous driving.