ChatPaper.aiChatPaper

Mask^2DiT: Трансформер диффузии с двойной маской для генерации длинных видео с несколькими сценами

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

March 25, 2025
Авторы: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI

Аннотация

Sora продемонстрировала огромный потенциал архитектуры Diffusion Transformer (DiT) в генерации видео с одной сценой. Однако более сложная задача генерации видео с несколькими сценами, которая открывает более широкие возможности применения, остается относительно малоизученной. Чтобы восполнить этот пробел, мы предлагаем Mask^2DiT — новый подход, который устанавливает детальное, однозначное соответствие между сегментами видео и их текстовыми аннотациями. В частности, мы вводим симметричную бинарную маску на каждом уровне внимания в архитектуре DiT, гарантируя, что каждая текстовая аннотация применяется исключительно к соответствующему сегменту видео, сохраняя при этом временную согласованность между визуальными токенами. Этот механизм внимания обеспечивает точное выравнивание текста и визуального контента на уровне сегментов, позволяя архитектуре DiT эффективно справляться с задачами генерации видео с фиксированным количеством сцен. Чтобы дополнительно наделить архитектуру DiT способностью генерировать новые сцены на основе существующих, мы внедряем условную маску на уровне сегментов, которая учитывает предшествующие сегменты видео при генерации каждого нового сегмента, тем самым обеспечивая авторегрессивное расширение сцен. Как качественные, так и количественные эксперименты подтверждают, что Mask^2DiT превосходно поддерживает визуальную согласованность между сегментами, одновременно обеспечивая семантическое соответствие между каждым сегментом и его текстовым описанием. Страница нашего проекта доступна по адресу: https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask^2DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.

Summary

AI-Generated Summary

PDF32March 27, 2025