FIFO-Diffusion: Generación de videos infinitos a partir de texto sin entrenamiento
FIFO-Diffusion: Generating Infinite Videos from Text without Training
May 19, 2024
Autores: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI
Resumen
Proponemos una novedosa técnica de inferencia basada en un modelo de difusión preentrenado para la generación de videos condicionados por texto. Nuestro enfoque, denominado FIFO-Difusión, es conceptualmente capaz de generar videos de longitud infinita sin necesidad de entrenamiento. Esto se logra mediante la aplicación iterativa de desruido diagonal, que procesa simultáneamente una serie de fotogramas consecutivos con niveles de ruido crecientes en una cola; nuestro método elimina un fotograma completamente desruido en la cabeza de la cola mientras añade un nuevo fotograma de ruido aleatorio en la cola. Sin embargo, el desruido diagonal es un arma de doble filo, ya que los fotogramas cercanos a la cola pueden beneficiarse de los más limpios mediante referencia hacia adelante, pero esta estrategia induce una discrepancia entre el entrenamiento y la inferencia. Por ello, introducimos la partición latente para reducir la brecha entre entrenamiento e inferencia y el desruido anticipado para aprovechar los beneficios de la referencia hacia adelante. Hemos demostrado los resultados prometedores y la eficacia de los métodos propuestos en líneas base existentes de generación de texto a video.
English
We propose a novel inference technique based on a pretrained diffusion model
for text-conditional video generation. Our approach, called FIFO-Diffusion, is
conceptually capable of generating infinitely long videos without training.
This is achieved by iteratively performing diagonal denoising, which
concurrently processes a series of consecutive frames with increasing noise
levels in a queue; our method dequeues a fully denoised frame at the head while
enqueuing a new random noise frame at the tail. However, diagonal denoising is
a double-edged sword as the frames near the tail can take advantage of cleaner
ones by forward reference but such a strategy induces the discrepancy between
training and inference. Hence, we introduce latent partitioning to reduce the
training-inference gap and lookahead denoising to leverage the benefit of
forward referencing. We have demonstrated the promising results and
effectiveness of the proposed methods on existing text-to-video generation
baselines.Summary
AI-Generated Summary