DiTCtrl: Erforschung der Aufmerksamkeitssteuerung in einem Multi-Modalen Diffusionstransformator für eine abstimmmungsfreie, mehrfache Anregung zur längeren Videogenerierung.
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation
December 24, 2024
Autoren: Minghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue
cs.AI
Zusammenfassung
Sora-ähnliche Video-generierende Modelle haben bemerkenswerte Fortschritte mit einer Multi-Modalen Diffusions-Transformer MM-DiT Architektur erzielt. Allerdings konzentrieren sich die aktuellen Video-generierenden Modelle hauptsächlich auf Einzelanfragen und haben Schwierigkeiten, kohärente Szenen mit mehreren aufeinanderfolgenden Anfragen zu erzeugen, die realistischere dynamische Szenarien widerspiegeln. Während einige wegweisende Arbeiten die Video-generierung mit mehreren Anfragen erkundet haben, stehen sie vor erheblichen Herausforderungen, darunter strenge Trainingsdatenanforderungen, schwache Anfrageverfolgung und unnatürliche Übergänge. Um diese Probleme anzugehen, schlagen wir DiTCtrl vor, eine trainingsfreie Methode zur Video-generierung mit mehreren Anfragen unter MM-DiT-Architekturen zum ersten Mal. Unsere Schlüsselidee besteht darin, die Video-generierung mit mehreren Anfragen als zeitliche Videobearbeitung mit sanften Übergängen zu betrachten. Um dieses Ziel zu erreichen, analysieren wir zunächst den Aufmerksamkeitsmechanismus von MM-DiT und stellen fest, dass die 3D-Voll-Aufmerksamkeit ähnlich wie die Kreuz-/Selbstaufmerksamkeitsblöcke in den UNet-ähnlichen Diffusionsmodellen funktioniert, wodurch eine maskengeführte präzise semantische Steuerung über verschiedene Anfragen hinweg mit Aufmerksamkeitsteilung für die Video-generierung mit mehreren Anfragen ermöglicht wird. Basierend auf unserem sorgfältigen Design erzielt das von DiTCtrl generierte Video sanfte Übergänge und konsistente Objektbewegungen bei mehreren aufeinanderfolgenden Anfragen ohne zusätzliches Training. Darüber hinaus präsentieren wir MPVBench, einen neuen Benchmark, der speziell für die Video-generierung mit mehreren Anfragen entwickelt wurde, um die Leistung der mehrfachen Anfragegenerierung zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung ohne zusätzliches Training erreicht.
English
Sora-like video generation models have achieved remarkable progress with a
Multi-Modal Diffusion Transformer MM-DiT architecture. However, the current
video generation models predominantly focus on single-prompt, struggling to
generate coherent scenes with multiple sequential prompts that better reflect
real-world dynamic scenarios. While some pioneering works have explored
multi-prompt video generation, they face significant challenges including
strict training data requirements, weak prompt following, and unnatural
transitions. To address these problems, we propose DiTCtrl, a training-free
multi-prompt video generation method under MM-DiT architectures for the first
time. Our key idea is to take the multi-prompt video generation task as
temporal video editing with smooth transitions. To achieve this goal, we first
analyze MM-DiT's attention mechanism, finding that the 3D full attention
behaves similarly to that of the cross/self-attention blocks in the UNet-like
diffusion models, enabling mask-guided precise semantic control across
different prompts with attention sharing for multi-prompt video generation.
Based on our careful design, the video generated by DiTCtrl achieves smooth
transitions and consistent object motion given multiple sequential prompts
without additional training. Besides, we also present MPVBench, a new benchmark
specially designed for multi-prompt video generation to evaluate the
performance of multi-prompt generation. Extensive experiments demonstrate that
our method achieves state-of-the-art performance without additional training.Summary
AI-Generated Summary