DiTCtrl : Exploration du contrôle de l'attention dans le Transformateur de Diffusion Multi-Modal pour la génération de vidéos longues multi-instructions sans réglage.

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

December 24, 2024
Auteurs: Minghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue
cs.AI

Résumé

Les modèles de génération vidéo de type Sora ont réalisé des progrès remarquables avec une architecture Multi-Modal Diffusion Transformer (MM-DiT). Cependant, les modèles actuels de génération vidéo se concentrent principalement sur une seule instruction, ayant du mal à générer des scènes cohérentes avec plusieurs instructions séquentielles qui reflètent mieux les scénarios dynamiques du monde réel. Alors que certaines œuvres pionnières ont exploré la génération vidéo multi-instructions, elles rencontrent des défis significatifs, notamment des exigences strictes en données d'entraînement, un suivi faible des instructions et des transitions non naturelles. Pour résoudre ces problèmes, nous proposons DiTCtrl, une méthode de génération vidéo multi-instructions sans entraînement sous des architectures MM-DiT pour la première fois. Notre idée clé est de considérer la tâche de génération vidéo multi-instructions comme un montage vidéo temporel avec des transitions fluides. Pour atteindre cet objectif, nous analysons d'abord le mécanisme d'attention de MM-DiT, constatant que l'attention complète en 3D se comporte de manière similaire à celle des blocs d'attention croisée/auto-attention dans les modèles de diffusion de type UNet, permettant un contrôle sémantique précis guidé par des masques à travers différentes instructions avec un partage d'attention pour la génération vidéo multi-instructions. Sur la base de notre conception soigneuse, la vidéo générée par DiTCtrl présente des transitions fluides et un mouvement d'objets cohérents étant donné plusieurs instructions séquentielles sans entraînement supplémentaire. De plus, nous présentons également MPVBench, un nouvel banc d'essai spécialement conçu pour la génération vidéo multi-instructions afin d'évaluer les performances de la génération multi-instructions. Des expériences approfondies démontrent que notre méthode atteint des performances de pointe sans entraînement supplémentaire.
English
Sora-like video generation models have achieved remarkable progress with a Multi-Modal Diffusion Transformer MM-DiT architecture. However, the current video generation models predominantly focus on single-prompt, struggling to generate coherent scenes with multiple sequential prompts that better reflect real-world dynamic scenarios. While some pioneering works have explored multi-prompt video generation, they face significant challenges including strict training data requirements, weak prompt following, and unnatural transitions. To address these problems, we propose DiTCtrl, a training-free multi-prompt video generation method under MM-DiT architectures for the first time. Our key idea is to take the multi-prompt video generation task as temporal video editing with smooth transitions. To achieve this goal, we first analyze MM-DiT's attention mechanism, finding that the 3D full attention behaves similarly to that of the cross/self-attention blocks in the UNet-like diffusion models, enabling mask-guided precise semantic control across different prompts with attention sharing for multi-prompt video generation. Based on our careful design, the video generated by DiTCtrl achieves smooth transitions and consistent object motion given multiple sequential prompts without additional training. Besides, we also present MPVBench, a new benchmark specially designed for multi-prompt video generation to evaluate the performance of multi-prompt generation. Extensive experiments demonstrate that our method achieves state-of-the-art performance without additional training.
PDF192December 25, 2024