ChatPaper.aiChatPaper

I4VGen: Imagem como Ponto de Partida para a Geração de Texto para Vídeo

I4VGen: Image as Stepping Stone for Text-to-Video Generation

June 4, 2024
Autores: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI

Resumo

A geração de vídeo a partir de texto tem ficado atrás da síntese de imagem a partir de texto em termos de qualidade e diversidade devido à complexidade da modelagem espaço-temporal e à limitação de conjuntos de dados vídeo-texto. Este artigo apresenta o I4VGen, uma estrutura de inferência de difusão de vídeo sem necessidade de treinamento e de fácil integração, que aprimora a geração de vídeo a partir de texto ao aproveitar técnicas robustas de imagem. Especificamente, seguindo a abordagem texto-para-imagem-para-vídeo, o I4VGen decompõe a geração de vídeo a partir de texto em dois estágios: síntese de imagem âncora e síntese de vídeo guiada pela imagem âncora. Correspondentemente, um pipeline de geração-seleção bem projetado é empregado para alcançar uma imagem âncora visualmente realista e semanticamente fiel, e uma inovadora Amostragem de Distilação de Pontuação de Vídeo Invariante ao Ruído é incorporada para animar a imagem em um vídeo dinâmico, seguida por um processo de regeneração de vídeo para refinar o resultado. Essa estratégia de inferência mitiga efetivamente o problema prevalente de razão sinal-ruído terminal não nula. Avaliações extensivas mostram que o I4VGen não apenas produz vídeos com maior realismo visual e fidelidade textual, mas também se integra perfeitamente aos modelos existentes de difusão de imagem para vídeo, melhorando assim a qualidade geral do vídeo.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents I4VGen, a training-free and plug-and-play video diffusion inference framework, which enhances text-to-video generation by leveraging robust image techniques. Specifically, following text-to-image-to-video, I4VGen decomposes the text-to-video generation into two stages: anchor image synthesis and anchor image-guided video synthesis. Correspondingly, a well-designed generation-selection pipeline is employed to achieve visually-realistic and semantically-faithful anchor image, and an innovative Noise-Invariant Video Score Distillation Sampling is incorporated to animate the image to a dynamic video, followed by a video regeneration process to refine the video. This inference strategy effectively mitigates the prevalent issue of non-zero terminal signal-to-noise ratio. Extensive evaluations show that I4VGen not only produces videos with higher visual realism and textual fidelity but also integrates seamlessly into existing image-to-video diffusion models, thereby improving overall video quality.
PDF183December 12, 2024