MagicDriveDiT: Generación de Videos Largos de Alta Resolución para Conducción Autónoma con Control Adaptativo
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
November 21, 2024
Autores: Ruiyuan Gao, Kai Chen, Bo Xiao, Lanqing Hong, Zhenguo Li, Qiang Xu
cs.AI
Resumen
El rápido avance de los modelos de difusión ha mejorado significativamente la síntesis de video, especialmente en la generación de video controlable, lo cual es esencial para aplicaciones como la conducción autónoma. Sin embargo, los métodos existentes se ven limitados por la escalabilidad y la integración de condiciones de control, sin lograr satisfacer las necesidades de videos de alta resolución y larga duración para aplicaciones de conducción autónoma. En este documento, presentamos MagicDriveDiT, un enfoque novedoso basado en la arquitectura DiT, que aborda estos desafíos. Nuestro método mejora la escalabilidad a través de la coincidencia de flujos y emplea una estrategia de entrenamiento progresiva para manejar escenarios complejos. Al incorporar codificación condicional espacio-temporal, MagicDriveDiT logra un control preciso sobre latentes espacio-temporales. Experimentos exhaustivos muestran su rendimiento superior en la generación de videos realistas de escenas callejeras con mayor resolución y más cuadros. MagicDriveDiT mejora significativamente la calidad de generación de video y los controles espacio-temporales, ampliando sus aplicaciones potenciales en diversas tareas de conducción autónoma.
English
The rapid advancement of diffusion models has greatly improved video
synthesis, especially in controllable video generation, which is essential for
applications like autonomous driving. However, existing methods are limited by
scalability and how control conditions are integrated, failing to meet the
needs for high-resolution and long videos for autonomous driving applications.
In this paper, we introduce MagicDriveDiT, a novel approach based on the DiT
architecture, and tackle these challenges. Our method enhances scalability
through flow matching and employs a progressive training strategy to manage
complex scenarios. By incorporating spatial-temporal conditional encoding,
MagicDriveDiT achieves precise control over spatial-temporal latents.
Comprehensive experiments show its superior performance in generating realistic
street scene videos with higher resolution and more frames. MagicDriveDiT
significantly improves video generation quality and spatial-temporal controls,
expanding its potential applications across various tasks in autonomous
driving.Summary
AI-Generated Summary