MagicDriveDiT:適応制御を用いた自律走行向けの高解像度長時間ビデオ生成
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
November 21, 2024
著者: Ruiyuan Gao, Kai Chen, Bo Xiao, Lanqing Hong, Zhenguo Li, Qiang Xu
cs.AI
要旨
拡散モデルの急速な進化により、特に制御可能なビデオ生成においてビデオ合成の性能が大幅に向上し、自動運転などのアプリケーションにとって重要となっています。しかし、既存の手法はスケーラビリティや制御条件の統合方法に制約があり、自動運転アプリケーション向けの高解像度で長時間のビデオ生成ニーズを満たすことができません。本論文では、DiTアーキテクチャに基づく革新的な手法であるMagicDriveDiTを紹介し、これらの課題に取り組みます。当手法は、フローマッチングを通じてスケーラビリティを向上させ、複雑なシナリオを管理するために段階的なトレーニング戦略を採用しています。空間的・時間的条件付きエンコーディングを組み込むことで、MagicDriveDiTは空間的・時間的な潜在変数に対する正確な制御を実現しています。包括的な実験により、MagicDriveDiTは、より高解像度でより多くのフレームを持つリアルな街中のビデオを生成する性能が優れていることが示されています。MagicDriveDiTは、ビデオ生成の品質と空間的・時間的な制御を大幅に向上させ、自動運転におけるさまざまなタスクにおける潜在的な応用範囲を拡大しています。
English
The rapid advancement of diffusion models has greatly improved video
synthesis, especially in controllable video generation, which is essential for
applications like autonomous driving. However, existing methods are limited by
scalability and how control conditions are integrated, failing to meet the
needs for high-resolution and long videos for autonomous driving applications.
In this paper, we introduce MagicDriveDiT, a novel approach based on the DiT
architecture, and tackle these challenges. Our method enhances scalability
through flow matching and employs a progressive training strategy to manage
complex scenarios. By incorporating spatial-temporal conditional encoding,
MagicDriveDiT achieves precise control over spatial-temporal latents.
Comprehensive experiments show its superior performance in generating realistic
street scene videos with higher resolution and more frames. MagicDriveDiT
significantly improves video generation quality and spatial-temporal controls,
expanding its potential applications across various tasks in autonomous
driving.Summary
AI-Generated Summary