ChatPaper.aiChatPaper

ZeroSmooth: Adaptación sin entrenamiento de difusores para la generación de videos de alta tasa de cuadros

ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation

June 3, 2024
Autores: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI

Resumen

La generación de videos ha experimentado un progreso notable en los últimos años, especialmente desde la aparición de los modelos de difusión de video. Muchos modelos de generación de video pueden producir videos sintéticos plausibles, como Stable Video Diffusion (SVD). Sin embargo, la mayoría de los modelos de video solo pueden generar videos con una tasa de cuadros baja debido a la limitada memoria de las GPU y a la dificultad de modelar un gran conjunto de cuadros. Los videos de entrenamiento siempre se muestrean uniformemente a un intervalo especificado para la compresión temporal. Métodos anteriores aumentan la tasa de cuadros entrenando un modelo de interpolación de video en el espacio de píxeles como una etapa de posprocesamiento o entrenando un modelo de interpolación en el espacio latente para un modelo de video base específico. En este artículo, proponemos un método de interpolación de video sin entrenamiento para modelos generativos de difusión de video, que es generalizable a diferentes modelos de manera plug-and-play. Investigamos la no linealidad en el espacio de características de los modelos de difusión de video y transformamos un modelo de video en un modelo de difusión de video autocascado, incorporando los módulos de corrección de estados ocultos diseñados. La arquitectura autocascada y el módulo de corrección se proponen para mantener la consistencia temporal entre los cuadros clave y los cuadros interpolados. Se realizan evaluaciones exhaustivas en múltiples modelos de video populares para demostrar la efectividad del método propuesto, especialmente que nuestro método sin entrenamiento es incluso comparable a los modelos de interpolación entrenados respaldados por grandes recursos computacionales y conjuntos de datos a gran escala.
English
Video generation has made remarkable progress in recent years, especially since the advent of the video diffusion models. Many video generation models can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD). However, most video models can only generate low frame rate videos due to the limited GPU memory as well as the difficulty of modeling a large set of frames. The training videos are always uniformly sampled at a specified interval for temporal compression. Previous methods promote the frame rate by either training a video interpolation model in pixel space as a postprocessing stage or training an interpolation model in latent space for a specific base video model. In this paper, we propose a training-free video interpolation method for generative video diffusion models, which is generalizable to different models in a plug-and-play manner. We investigate the non-linearity in the feature space of video diffusion models and transform a video model into a self-cascaded video diffusion model with incorporating the designed hidden state correction modules. The self-cascaded architecture and the correction module are proposed to retain the temporal consistency between key frames and the interpolated frames. Extensive evaluations are preformed on multiple popular video models to demonstrate the effectiveness of the propose method, especially that our training-free method is even comparable to trained interpolation models supported by huge compute resources and large-scale datasets.

Summary

AI-Generated Summary

PDF121December 12, 2024