ChatPaper.aiChatPaper

VideoElevator: Elevando a Qualidade da Geração de Vídeos com Modelos de Difusão Versáteis de Texto para Imagem

VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

March 8, 2024
Autores: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI

Resumo

Modelos de difusão texto-para-imagem (T2I) demonstraram capacidades sem precedentes na criação de imagens realistas e esteticamente agradáveis. Em contraste, modelos de difusão texto-para-vídeo (T2V) ainda estão muito atrás em termos de qualidade de quadro e alinhamento de texto, devido à insuficiência na qualidade e quantidade de vídeos de treinamento. Neste artigo, apresentamos o VideoElevator, um método sem necessidade de treinamento e plug-and-play, que eleva o desempenho de T2V utilizando as capacidades superiores de T2I. Diferente da amostragem convencional de T2V (ou seja, modelagem temporal e espacial), o VideoElevator decompõe explicitamente cada etapa de amostragem em refinamento de movimento temporal e elevação de qualidade espacial. Especificamente, o refinamento de movimento temporal utiliza T2V encapsulado para melhorar a consistência temporal, seguido pela inversão para a distribuição de ruído exigida por T2I. Em seguida, a elevação de qualidade espacial aproveita T2I inflado para prever diretamente latentes menos ruidosos, adicionando detalhes mais foto-realistas. Realizamos experimentos com uma ampla variedade de prompts sob a combinação de diversos T2V e T2I. Os resultados mostram que o VideoElevator não apenas melhora o desempenho das linhas de base de T2V com T2I fundamentais, mas também facilita a síntese de vídeos estilizados com T2I personalizados. Nosso código está disponível em https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented capabilities in creating realistic and aesthetic images. On the contrary, text-to-video diffusion models (T2V) still lag far behind in frame quality and text alignment, owing to insufficient quality and quantity of training videos. In this paper, we introduce VideoElevator, a training-free and plug-and-play method, which elevates the performance of T2V using superior capabilities of T2I. Different from conventional T2V sampling (i.e., temporal and spatial modeling), VideoElevator explicitly decomposes each sampling step into temporal motion refining and spatial quality elevating. Specifically, temporal motion refining uses encapsulated T2V to enhance temporal consistency, followed by inverting to the noise distribution required by T2I. Then, spatial quality elevating harnesses inflated T2I to directly predict less noisy latent, adding more photo-realistic details. We have conducted experiments in extensive prompts under the combination of various T2V and T2I. The results show that VideoElevator not only improves the performance of T2V baselines with foundational T2I, but also facilitates stylistic video synthesis with personalized T2I. Our code is available at https://github.com/YBYBZhang/VideoElevator.
PDF211December 15, 2024