DiTCtrl: Erforschung der Aufmerksamkeitssteuerung in einem Multi-Modalen Diffusionstransformator für eine abstimmmungsfreie, mehrfache Anregung zur längeren Videogenerierung.

Zusammenfassung

Sora-ähnliche Video-generierende Modelle haben bemerkenswerte Fortschritte mit einer Multi-Modalen Diffusions-Transformer MM-DiT Architektur erzielt. Allerdings konzentrieren sich die aktuellen Video-generierenden Modelle hauptsächlich auf Einzelanfragen und haben Schwierigkeiten, kohärente Szenen mit mehreren aufeinanderfolgenden Anfragen zu erzeugen, die realistischere dynamische Szenarien widerspiegeln. Während einige wegweisende Arbeiten die Video-generierung mit mehreren Anfragen erkundet haben, stehen sie vor erheblichen Herausforderungen, darunter strenge Trainingsdatenanforderungen, schwache Anfrageverfolgung und unnatürliche Übergänge. Um diese Probleme anzugehen, schlagen wir DiTCtrl vor, eine trainingsfreie Methode zur Video-generierung mit mehreren Anfragen unter MM-DiT-Architekturen zum ersten Mal. Unsere Schlüsselidee besteht darin, die Video-generierung mit mehreren Anfragen als zeitliche Videobearbeitung mit sanften Übergängen zu betrachten. Um dieses Ziel zu erreichen, analysieren wir zunächst den Aufmerksamkeitsmechanismus von MM-DiT und stellen fest, dass die 3D-Voll-Aufmerksamkeit ähnlich wie die Kreuz-/Selbstaufmerksamkeitsblöcke in den UNet-ähnlichen Diffusionsmodellen funktioniert, wodurch eine maskengeführte präzise semantische Steuerung über verschiedene Anfragen hinweg mit Aufmerksamkeitsteilung für die Video-generierung mit mehreren Anfragen ermöglicht wird. Basierend auf unserem sorgfältigen Design erzielt das von DiTCtrl generierte Video sanfte Übergänge und konsistente Objektbewegungen bei mehreren aufeinanderfolgenden Anfragen ohne zusätzliches Training. Darüber hinaus präsentieren wir MPVBench, einen neuen Benchmark, der speziell für die Video-generierung mit mehreren Anfragen entwickelt wurde, um die Leistung der mehrfachen Anfragegenerierung zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung ohne zusätzliches Training erreicht.

English

Sora-like video generation models have achieved remarkable progress with a Multi-Modal Diffusion Transformer MM-DiT architecture. However, the current video generation models predominantly focus on single-prompt, struggling to generate coherent scenes with multiple sequential prompts that better reflect real-world dynamic scenarios. While some pioneering works have explored multi-prompt video generation, they face significant challenges including strict training data requirements, weak prompt following, and unnatural transitions. To address these problems, we propose DiTCtrl, a training-free multi-prompt video generation method under MM-DiT architectures for the first time. Our key idea is to take the multi-prompt video generation task as temporal video editing with smooth transitions. To achieve this goal, we first analyze MM-DiT's attention mechanism, finding that the 3D full attention behaves similarly to that of the cross/self-attention blocks in the UNet-like diffusion models, enabling mask-guided precise semantic control across different prompts with attention sharing for multi-prompt video generation. Based on our careful design, the video generated by DiTCtrl achieves smooth transitions and consistent object motion given multiple sequential prompts without additional training. Besides, we also present MPVBench, a new benchmark specially designed for multi-prompt video generation to evaluate the performance of multi-prompt generation. Extensive experiments demonstrate that our method achieves state-of-the-art performance without additional training.