ChatPaper.aiChatPaper

MagicDriveDiT: Генерация видео высокого разрешения для автономного вождения с адаптивным управлением

MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control

November 21, 2024
Авторы: Ruiyuan Gao, Kai Chen, Bo Xiao, Lanqing Hong, Zhenguo Li, Qiang Xu
cs.AI

Аннотация

Быстрое развитие моделей диффузии значительно улучшило синтез видео, особенно в контролируемой генерации видео, что является важным для приложений, таких как автономное вождение. Однако существующие методы ограничены масштабируемостью и интеграцией условий управления, не отвечая потребностям в видео высокого разрешения и большой длины для приложений автономного вождения. В данной статье мы представляем MagicDriveDiT, новый подход на основе архитектуры DiT, решающий эти проблемы. Наш метод улучшает масштабируемость через сопоставление потоков и использует стратегию поэтапного обучения для управления сложными сценариями. Путем включения пространственно-временного условного кодирования MagicDriveDiT достигает точного контроля над пространственно-временными латентами. Обширные эксперименты показывают его превосходную производительность в генерации реалистичных видео уличной сцены с более высоким разрешением и большим количеством кадров. MagicDriveDiT значительно улучшает качество генерации видео и пространственно-временные управления, расширяя его потенциальные применения в различных задачах автономного вождения.
English
The rapid advancement of diffusion models has greatly improved video synthesis, especially in controllable video generation, which is essential for applications like autonomous driving. However, existing methods are limited by scalability and how control conditions are integrated, failing to meet the needs for high-resolution and long videos for autonomous driving applications. In this paper, we introduce MagicDriveDiT, a novel approach based on the DiT architecture, and tackle these challenges. Our method enhances scalability through flow matching and employs a progressive training strategy to manage complex scenarios. By incorporating spatial-temporal conditional encoding, MagicDriveDiT achieves precise control over spatial-temporal latents. Comprehensive experiments show its superior performance in generating realistic street scene videos with higher resolution and more frames. MagicDriveDiT significantly improves video generation quality and spatial-temporal controls, expanding its potential applications across various tasks in autonomous driving.

Summary

AI-Generated Summary

PDF112November 22, 2024