ChatPaper.aiChatPaper

FIFO-Diffusion: Gerando Vídeos Infinitos a partir de Texto sem Treinamento

FIFO-Diffusion: Generating Infinite Videos from Text without Training

May 19, 2024
Autores: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI

Resumo

Propomos uma nova técnica de inferência baseada em um modelo de difusão pré-treinado para geração de vídeos condicionados por texto. Nossa abordagem, denominada FIFO-Diffusion, é conceitualmente capaz de gerar vídeos infinitamente longos sem necessidade de treinamento. Isso é alcançado através da realização iterativa de desnaturação diagonal, que processa simultaneamente uma série de quadros consecutivos com níveis crescentes de ruído em uma fila; nosso método remove um quadro completamente desnaturado na cabeça da fila enquanto adiciona um novo quadro de ruído aleatório na cauda. No entanto, a desnaturação diagonal é uma faca de dois gumes, pois os quadros próximos à cauda podem se beneficiar de quadros mais limpos por meio de referência futura, mas essa estratégia induz uma discrepância entre o treinamento e a inferência. Portanto, introduzimos a partição latente para reduzir a lacuna entre treinamento e inferência e a desnaturação antecipada para aproveitar o benefício da referência futura. Demonstramos resultados promissores e a eficácia dos métodos propostos em baselines existentes de geração de vídeo a partir de texto.
English
We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines.
PDF578December 15, 2024