Mask^2DiT : Transformeur de Diffusion à Double Masque pour la Génération de Vidéos Longues Multi-Scènes

papers.abstract

Sora a révélé l'immense potentiel de l'architecture Diffusion Transformer (DiT) dans la génération de vidéos à scène unique. Cependant, la tâche plus complexe de génération de vidéos multi-scènes, qui offre des applications plus vastes, reste relativement peu explorée. Pour combler cette lacune, nous proposons Mask^2DiT, une approche novatrice qui établit un alignement fin et un-à-un entre les segments vidéo et leurs annotations textuelles correspondantes. Plus précisément, nous introduisons un masque binaire symétrique à chaque couche d'attention au sein de l'architecture DiT, garantissant que chaque annotation textuelle s'applique exclusivement à son segment vidéo respectif tout en préservant la cohérence temporelle entre les tokens visuels. Ce mécanisme d'attention permet un alignement précis au niveau des segments entre le texte et la vidéo, permettant à l'architecture DiT de gérer efficacement les tâches de génération de vidéos avec un nombre fixe de scènes. Pour doter davantage l'architecture DiT de la capacité à générer des scènes supplémentaires basées sur celles existantes, nous intégrons un masque conditionnel au niveau des segments, qui conditionne chaque nouveau segment généré sur les segments vidéo précédents, permettant ainsi une extension auto-régressive des scènes. Les expériences qualitatives et quantitatives confirment que Mask^2DiT excelle à maintenir la cohérence visuelle entre les segments tout en assurant l'alignement sémantique entre chaque segment et sa description textuelle correspondante. Notre page de projet est disponible à l'adresse suivante : https://tianhao-qi.github.io/Mask2DiTProject.

English

Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask^2DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.

Mask^2DiT : Transformeur de Diffusion à Double Masque pour la Génération de Vidéos Longues Multi-Scènes

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

papers.abstract

Support