ChatPaper.aiChatPaper

Mask^2DiT: Transformador de Difusão Baseado em Máscara Dupla para Geração de Vídeos Longos com Múltiplas Cenas

Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation

March 25, 2025
Autores: Tianhao Qi, Jianlong Yuan, Wanquan Feng, Shancheng Fang, Jiawei Liu, SiYu Zhou, Qian He, Hongtao Xie, Yongdong Zhang
cs.AI

Resumo

A Sora revelou o imenso potencial da arquitetura Diffusion Transformer (DiT) na geração de vídeos de cena única. No entanto, a tarefa mais desafiadora de geração de vídeos com múltiplas cenas, que oferece aplicações mais amplas, permanece relativamente pouco explorada. Para preencher essa lacuna, propomos o Mask^2DiT, uma abordagem inovadora que estabelece um alinhamento refinado e um-para-um entre segmentos de vídeo e suas respectivas anotações textuais. Especificamente, introduzimos uma máscara binária simétrica em cada camada de atenção dentro da arquitetura DiT, garantindo que cada anotação textual se aplique exclusivamente ao seu segmento de vídeo correspondente, enquanto preserva a coerência temporal entre os tokens visuais. Esse mecanismo de atenção permite um alinhamento preciso em nível de segmento entre texto e vídeo, permitindo que a arquitetura DiT lide efetivamente com tarefas de geração de vídeos com um número fixo de cenas. Para capacitar ainda mais a arquitetura DiT com a habilidade de gerar cenas adicionais com base nas existentes, incorporamos uma máscara condicional em nível de segmento, que condiciona cada novo segmento gerado aos segmentos de vídeo anteriores, permitindo assim a extensão auto-regressiva de cenas. Experimentos qualitativos e quantitativos confirmam que o Mask^2DiT se destaca em manter a consistência visual entre os segmentos, ao mesmo tempo que garante o alinhamento semântico entre cada segmento e sua descrição textual correspondente. Nossa página do projeto está disponível em https://tianhao-qi.github.io/Mask2DiTProject.
English
Sora has unveiled the immense potential of the Diffusion Transformer (DiT) architecture in single-scene video generation. However, the more challenging task of multi-scene video generation, which offers broader applications, remains relatively underexplored. To bridge this gap, we propose Mask^2DiT, a novel approach that establishes fine-grained, one-to-one alignment between video segments and their corresponding text annotations. Specifically, we introduce a symmetric binary mask at each attention layer within the DiT architecture, ensuring that each text annotation applies exclusively to its respective video segment while preserving temporal coherence across visual tokens. This attention mechanism enables precise segment-level textual-to-visual alignment, allowing the DiT architecture to effectively handle video generation tasks with a fixed number of scenes. To further equip the DiT architecture with the ability to generate additional scenes based on existing ones, we incorporate a segment-level conditional mask, which conditions each newly generated segment on the preceding video segments, thereby enabling auto-regressive scene extension. Both qualitative and quantitative experiments confirm that Mask^2DiT excels in maintaining visual consistency across segments while ensuring semantic alignment between each segment and its corresponding text description. Our project page is https://tianhao-qi.github.io/Mask2DiTProject.

Summary

AI-Generated Summary

PDF32March 27, 2025