ExVideo: Extensión de Modelos de Difusión de Video mediante Ajuste Posterior de Parámetros Eficiente
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Autores: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Resumen
Recientemente, los avances en la síntesis de video han captado una atención significativa. Modelos de síntesis de video como AnimateDiff y Stable Video Diffusion han demostrado la aplicabilidad práctica de los modelos de difusión en la creación de contenido visual dinámico. La aparición de SORA ha destacado aún más el potencial de las tecnologías de generación de video. Sin embargo, la extensión de la duración de los videos se ha visto limitada por las restricciones en los recursos computacionales. La mayoría de los modelos de síntesis de video existentes solo pueden generar clips de video cortos. En este artículo, proponemos una novedosa metodología de ajuste posterior para modelos de síntesis de video, denominada ExVideo. Este enfoque está diseñado para mejorar la capacidad de los modelos actuales de síntesis de video, permitiéndoles producir contenido durante períodos temporales más extensos con menores costos de entrenamiento. En particular, diseñamos estrategias de extensión para arquitecturas de modelos temporales comunes, incluyendo convolución 3D, atención temporal y embebido posicional. Para evaluar la eficacia de nuestro enfoque de ajuste posterior, realizamos entrenamiento de extensión en el modelo Stable Video Diffusion. Nuestro enfoque aumenta la capacidad del modelo para generar hasta 5 veces su número original de fotogramas, requiriendo solo 1.5k horas de entrenamiento en GPU en un conjunto de datos que comprende 40k videos. Es importante destacar que el aumento sustancial en la duración del video no compromete las capacidades de generalización innatas del modelo, y este demuestra sus ventajas en la generación de videos de diversos estilos y resoluciones. Publicaremos el código fuente y el modelo mejorado de manera pública.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.Summary
AI-Generated Summary