OSV: Un Paso es Suficiente para la Generación de Video a Partir de Imágenes de Alta Calidad
OSV: One Step is Enough for High-Quality Image to Video Generation
September 17, 2024
Autores: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI
Resumen
Los modelos de difusión de video han demostrado un gran potencial en la generación de videos de alta calidad, lo que los convierte en un enfoque cada vez más popular. Sin embargo, su naturaleza iterativa conlleva costos computacionales y temporales sustanciales. Aunque se han realizado esfuerzos para acelerar la difusión de video mediante la reducción de pasos de inferencia (a través de técnicas como destilación de consistencia) y el entrenamiento de GAN (estos enfoques a menudo no logran un rendimiento estable en el entrenamiento). En este trabajo, presentamos un marco de entrenamiento de dos etapas que combina eficazmente la destilación de consistencia con el entrenamiento de GAN para abordar estos desafíos. Además, proponemos un diseño novedoso de discriminador de video, que elimina la necesidad de decodificar los latentes del video y mejora el rendimiento final. Nuestro modelo es capaz de producir videos de alta calidad en tan solo un paso, con la flexibilidad de realizar un refinamiento de múltiples pasos para mejorar aún más el rendimiento. Nuestra evaluación cuantitativa en el conjunto de datos de referencia OpenWebVid-1M muestra que nuestro modelo supera significativamente a los métodos existentes. Notablemente, nuestro rendimiento de un paso (FVD 171.15) supera el rendimiento de 8 pasos del método basado en destilación de consistencia, AnimateLCM (FVD 184.79), y se acerca al rendimiento de 25 pasos de la avanzada Difusión de Video Estable (FVD 156.94).
English
Video diffusion models have shown great potential in generating high-quality
videos, making them an increasingly popular focus. However, their inherent
iterative nature leads to substantial computational and time costs. While
efforts have been made to accelerate video diffusion by reducing inference
steps (through techniques like consistency distillation) and GAN training
(these approaches often fall short in either performance or training
stability). In this work, we introduce a two-stage training framework that
effectively combines consistency distillation with GAN training to address
these challenges. Additionally, we propose a novel video discriminator design,
which eliminates the need for decoding the video latents and improves the final
performance. Our model is capable of producing high-quality videos in merely
one-step, with the flexibility to perform multi-step refinement for further
performance enhancement. Our quantitative evaluation on the OpenWebVid-1M
benchmark shows that our model significantly outperforms existing methods.
Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of
the consistency distillation based method, AnimateLCM (FVD 184.79), and
approaches the 25-step performance of advanced Stable Video Diffusion (FVD
156.94).Summary
AI-Generated Summary