FIFO-Diffusion: Generación de videos infinitos a partir de texto sin entrenamientoFIFO-Diffusion: Generating Infinite Videos from Text without Training
Proponemos una novedosa técnica de inferencia basada en un modelo de difusión preentrenado para la generación de videos condicionados por texto. Nuestro enfoque, denominado FIFO-Difusión, es conceptualmente capaz de generar videos de longitud infinita sin necesidad de entrenamiento. Esto se logra mediante la aplicación iterativa de desruido diagonal, que procesa simultáneamente una serie de fotogramas consecutivos con niveles de ruido crecientes en una cola; nuestro método elimina un fotograma completamente desruido en la cabeza de la cola mientras añade un nuevo fotograma de ruido aleatorio en la cola. Sin embargo, el desruido diagonal es un arma de doble filo, ya que los fotogramas cercanos a la cola pueden beneficiarse de los más limpios mediante referencia hacia adelante, pero esta estrategia induce una discrepancia entre el entrenamiento y la inferencia. Por ello, introducimos la partición latente para reducir la brecha entre entrenamiento e inferencia y el desruido anticipado para aprovechar los beneficios de la referencia hacia adelante. Hemos demostrado los resultados prometedores y la eficacia de los métodos propuestos en líneas base existentes de generación de texto a video.