Mask^2DiT: Transformador de Difusión Basado en Máscara Dual para la Generación de Videos Largos en Múltiples Escenas
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
March 25, 2025
Autores: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI
Resumen
Sora ha revelado el inmenso potencial de la arquitectura del Transformer de Difusión (DiT) en la generación de videos de escena única. Sin embargo, la tarea más desafiante de la generación de videos de múltiples escenas, que ofrece aplicaciones más amplias, sigue siendo relativamente poco explorada. Para cerrar esta brecha, proponemos Mask^2DiT, un enfoque novedoso que establece una alineación granular uno a uno entre segmentos de video y sus anotaciones de texto correspondientes. Específicamente, introducimos una máscara binaria simétrica en cada capa de atención dentro de la arquitectura DiT, asegurando que cada anotación de texto se aplique exclusivamente a su respectivo segmento de video mientras se preserva la coherencia temporal entre los tokens visuales. Este mecanismo de atención permite una alineación precisa a nivel de segmento entre texto y visuales, permitiendo que la arquitectura DiT maneje efectivamente tareas de generación de videos con un número fijo de escenas. Para dotar aún más a la arquitectura DiT con la capacidad de generar escenas adicionales basadas en las existentes, incorporamos una máscara condicional a nivel de segmento, que condiciona cada nuevo segmento generado en los segmentos de video anteriores, permitiendo así la extensión autoregresiva de escenas. Tanto los experimentos cualitativos como cuantitativos confirman que Mask^2DiT sobresale en mantener la consistencia visual entre segmentos mientras asegura la alineación semántica entre cada segmento y su descripción de texto correspondiente. Nuestra página del proyecto es https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT)
architecture in single-scene video generation. However, the more challenging
task of multi-scene video generation, which offers broader applications,
remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a
novel approach that establishes fine-grained, one-to-one alignment between
video segments and their corresponding text annotations. Specifically, we
introduce a symmetric binary mask at each attention layer within the DiT
architecture, ensuring that each text annotation applies exclusively to its
respective video segment while preserving temporal coherence across visual
tokens. This attention mechanism enables precise segment-level
textual-to-visual alignment, allowing the DiT architecture to effectively
handle video generation tasks with a fixed number of scenes. To further equip
the DiT architecture with the ability to generate additional scenes based on
existing ones, we incorporate a segment-level conditional mask, which
conditions each newly generated segment on the preceding video segments,
thereby enabling auto-regressive scene extension. Both qualitative and
quantitative experiments confirm that Mask^2DiT excels in maintaining visual
consistency across segments while ensuring semantic alignment between each
segment and its corresponding text description. Our project page is
https://tianhao-qi.github.io/Mask2DiTProject.Summary
AI-Generated Summary