Desacoplamento Hierárquico Espaço-temporal para Geração de Texto para Vídeo
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
December 7, 2023
Autores: Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
cs.AI
Resumo
Apesar dos modelos de difusão terem demonstrado capacidades poderosas para gerar imagens foto-realistas, a geração de vídeos realistas e diversos ainda está em sua infância. Uma das principais razões é que os métodos atuais entrelaçam o conteúdo espacial e a dinâmica temporal, levando a um aumento significativo na complexidade da geração de texto para vídeo (T2V). Neste trabalho, propomos o HiGen, um método baseado em modelo de difusão que melhora o desempenho ao desacoplar os fatores espaciais e temporais dos vídeos a partir de duas perspectivas, ou seja, nível de estrutura e nível de conteúdo. No nível de estrutura, decompomos a tarefa T2V em duas etapas, incluindo raciocínio espacial e raciocínio temporal, utilizando um desnificador unificado. Especificamente, geramos priors espacialmente coerentes usando texto durante o raciocínio espacial e, em seguida, geramos movimentos temporalmente coerentes a partir desses priors durante o raciocínio temporal. No nível de conteúdo, extraímos duas pistas sutis do conteúdo do vídeo de entrada que podem expressar mudanças de movimento e aparência, respectivamente. Essas duas pistas então orientam o treinamento do modelo para a geração de vídeos, permitindo variações de conteúdo flexíveis e melhorando a estabilidade temporal. Através do paradigma desacoplado, o HiGen pode efetivamente reduzir a complexidade dessa tarefa e gerar vídeos realistas com precisão semântica e estabilidade de movimento. Experimentos extensivos demonstram o desempenho superior do HiGen em relação aos métodos T2V state-of-the-art.
English
Despite diffusion models having shown powerful abilities to generate
photorealistic images, generating videos that are realistic and diverse still
remains in its infancy. One of the key reasons is that current methods
intertwine spatial content and temporal dynamics together, leading to a notably
increased complexity of text-to-video generation (T2V). In this work, we
propose HiGen, a diffusion model-based method that improves performance by
decoupling the spatial and temporal factors of videos from two perspectives,
i.e., structure level and content level. At the structure level, we decompose
the T2V task into two steps, including spatial reasoning and temporal
reasoning, using a unified denoiser. Specifically, we generate spatially
coherent priors using text during spatial reasoning and then generate
temporally coherent motions from these priors during temporal reasoning. At the
content level, we extract two subtle cues from the content of the input video
that can express motion and appearance changes, respectively. These two cues
then guide the model's training for generating videos, enabling flexible
content variations and enhancing temporal stability. Through the decoupled
paradigm, HiGen can effectively reduce the complexity of this task and generate
realistic videos with semantics accuracy and motion stability. Extensive
experiments demonstrate the superior performance of HiGen over the
state-of-the-art T2V methods.