Mask^2DiT: 다중 장면 장편 비디오 생성을 위한 이중 마스크 기반 확산 트랜스포머
Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
March 25, 2025
저자: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI
초록
Sora는 단일 장면 비디오 생성에서 Diffusion Transformer(DiT) 아키텍처의 엄청난 잠재력을 보여주었습니다. 그러나 더 광범위한 응용 가능성을 지닌 다중 장면 비디오 생성이라는 더 도전적인 과제는 상대적으로 덜 탐구된 상태입니다. 이러한 격차를 해소하기 위해, 우리는 비디오 세그먼트와 해당 텍스트 주석 간의 세밀한 일대일 정렬을 가능하게 하는 새로운 접근 방식인 Mask^2DiT를 제안합니다. 구체적으로, 우리는 DiT 아키텍처 내의 각 어텐션 레이어에 대칭 이진 마스크를 도입하여 각 텍스트 주석이 해당 비디오 세그먼트에만 적용되도록 하면서도 시각적 토큰 간의 시간적 일관성을 유지합니다. 이 어텐션 메커니즘은 세그먼트 수준의 정확한 텍스트-시각 정렬을 가능하게 하여 DiT 아키텍처가 고정된 수의 장면을 가진 비디오 생성 작업을 효과적으로 처리할 수 있도록 합니다. 또한, DiT 아키텍처가 기존 장면을 기반으로 추가 장면을 생성할 수 있는 능력을 갖추도록 하기 위해, 우리는 세그먼트 수준의 조건부 마스크를 통합합니다. 이 마스크는 새로 생성된 각 세그먼트를 이전 비디오 세그먼트에 조건화함으로써 자동 회귀적 장면 확장을 가능하게 합니다. 정성적 및 정량적 실험 모두에서 Mask^2DiT가 세그먼트 간 시각적 일관성을 유지하면서도 각 세그먼트와 해당 텍스트 설명 간의 의미론적 정렬을 보장하는 데 탁월함을 확인했습니다. 우리의 프로젝트 페이지는 https://tianhao-qi.github.io/Mask2DiTProject입니다.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT)
architecture in single-scene video generation. However, the more challenging
task of multi-scene video generation, which offers broader applications,
remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a
novel approach that establishes fine-grained, one-to-one alignment between
video segments and their corresponding text annotations. Specifically, we
introduce a symmetric binary mask at each attention layer within the DiT
architecture, ensuring that each text annotation applies exclusively to its
respective video segment while preserving temporal coherence across visual
tokens. This attention mechanism enables precise segment-level
textual-to-visual alignment, allowing the DiT architecture to effectively
handle video generation tasks with a fixed number of scenes. To further equip
the DiT architecture with the ability to generate additional scenes based on
existing ones, we incorporate a segment-level conditional mask, which
conditions each newly generated segment on the preceding video segments,
thereby enabling auto-regressive scene extension. Both qualitative and
quantitative experiments confirm that Mask^2DiT excels in maintaining visual
consistency across segments while ensuring semantic alignment between each
segment and its corresponding text description. Our project page is
https://tianhao-qi.github.io/Mask2DiTProject.Summary
AI-Generated Summary