Mask^2DiT: Dual Mask-gebaseerde Diffusie Transformer voor Generatie van Lange Video's met Meerdere Scènes
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
March 25, 2025
Auteurs: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI
Samenvatting
Sora heeft het immense potentieel van de Diffusion Transformer (DiT)-architectuur onthuld in het genereren van video's met één scène. De uitdagendere taak van het genereren van video's met meerdere scènes, die bredere toepassingen biedt, blijft echter relatief onderbelicht. Om deze kloof te overbruggen, stellen we Mask^2DiT voor, een nieuwe aanpak die een fijnmazige, één-op-één-afstemming tussen videosegmenten en hun bijbehorende tekstannotaties tot stand brengt. Specifiek introduceren we een symmetrisch binair masker op elke aandachtlaag binnen de DiT-architectuur, waardoor elke tekstannotatie uitsluitend van toepassing is op het bijbehorende videosegment, terwijl de temporele samenhang tussen visuele tokens behouden blijft. Dit aandachtmechanisme maakt een precieze segmentniveau tekst-naar-visuele afstemming mogelijk, waardoor de DiT-architectuur effectief om kan gaan met videogeneratietaken met een vast aantal scènes. Om de DiT-architectuur verder uit te rusten met de mogelijkheid om aanvullende scènes te genereren op basis van bestaande scènes, incorporeren we een segmentniveau conditioneel masker, dat elk nieuw gegenereerd segment conditioneert op de voorgaande videosegmenten, waardoor auto-regressieve scène-uitbreiding mogelijk wordt. Zowel kwalitatieve als kwantitatieve experimenten bevestigen dat Mask^2DiT uitblinkt in het handhaven van visuele consistentie tussen segmenten, terwijl de semantische afstemming tussen elk segment en de bijbehorende tekstbeschrijving wordt gewaarborgd. Onze projectpagina is te vinden op https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT)
architecture in single-scene video generation. However, the more challenging
task of multi-scene video generation, which offers broader applications,
remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a
novel approach that establishes fine-grained, one-to-one alignment between
video segments and their corresponding text annotations. Specifically, we
introduce a symmetric binary mask at each attention layer within the DiT
architecture, ensuring that each text annotation applies exclusively to its
respective video segment while preserving temporal coherence across visual
tokens. This attention mechanism enables precise segment-level
textual-to-visual alignment, allowing the DiT architecture to effectively
handle video generation tasks with a fixed number of scenes. To further equip
the DiT architecture with the ability to generate additional scenes based on
existing ones, we incorporate a segment-level conditional mask, which
conditions each newly generated segment on the preceding video segments,
thereby enabling auto-regressive scene extension. Both qualitative and
quantitative experiments confirm that Mask^2DiT excels in maintaining visual
consistency across segments while ensuring semantic alignment between each
segment and its corresponding text description. Our project page is
https://tianhao-qi.github.io/Mask2DiTProject.Summary
AI-Generated Summary