ChatPaper.aiChatPaper

SF-V: Modelo de Generación de Vídeo de Avance Único

SF-V: Single Forward Video Generation Model

June 6, 2024
Autores: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI

Resumen

Los modelos de generación de videos basados en difusión han demostrado un éxito notable en la obtención de videos de alta fidelidad a través del proceso iterativo de eliminación de ruido. Sin embargo, estos modelos requieren múltiples pasos de eliminación de ruido durante el muestreo, lo que resulta en altos costos computacionales. En este trabajo, proponemos un enfoque novedoso para obtener modelos de generación de videos en un solo paso mediante el uso de entrenamiento adversarial para ajustar modelos de difusión de videos preentrenados. Mostramos que, a través del entrenamiento adversarial, el modelo de difusión de videos de múltiples pasos, es decir, Stable Video Diffusion (SVD), puede entrenarse para realizar un único paso hacia adelante y sintetizar videos de alta calidad, capturando tanto las dependencias temporales como espaciales en los datos de video. Experimentos extensivos demuestran que nuestro método logra una calidad de generación competitiva en los videos sintetizados con una reducción significativa en la sobrecarga computacional del proceso de eliminación de ruido (es decir, alrededor de 23 veces más rápido en comparación con SVD y 6 veces más rápido en comparación con trabajos existentes, con una calidad de generación incluso mejor), allanando el camino para la síntesis y edición de videos en tiempo real. Más resultados de visualización están disponibles públicamente en https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success in obtaining high-fidelity videos through the iterative denoising process. However, these models require multiple denoising steps during sampling, resulting in high computational costs. In this work, we propose a novel approach to obtain single-step video generation models by leveraging adversarial training to fine-tune pre-trained video diffusion models. We show that, through the adversarial training, the multi-steps video diffusion model, i.e., Stable Video Diffusion (SVD), can be trained to perform single forward pass to synthesize high-quality videos, capturing both temporal and spatial dependencies in the video data. Extensive experiments demonstrate that our method achieves competitive generation quality of synthesized videos with significantly reduced computational overhead for the denoising process (i.e., around 23times speedup compared with SVD and 6times speedup compared with existing works, with even better generation quality), paving the way for real-time video synthesis and editing. More visualization results are made publicly available at https://snap-research.github.io/SF-V.

Summary

AI-Generated Summary

PDF262December 8, 2024