ZeroSmooth: Training-freie Diffuser-Anpassung für die Generierung von Videos mit hoher Bildrate
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Autoren: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Zusammenfassung
Die Videogenerierung hat in den letzten Jahren bemerkenswerte Fortschritte gemacht, insbesondere seit dem Aufkommen der Videodiffusionsmodelle. Viele Videogenerierungsmodelle können plausible synthetische Videos erstellen, z.B. das Stabile Videodiffusionsmodell (SVD). Die meisten Videomodelle können jedoch nur Videos mit niedriger Bildrate generieren, aufgrund des begrenzten GPU-Speichers sowie der Schwierigkeit, eine große Anzahl von Frames zu modellieren. Die Trainingsvideos werden immer gleichmäßig in einem festgelegten Intervall für die zeitliche Kompression abgetastet. Frühere Methoden erhöhen die Bildrate entweder durch das Trainieren eines Videointerpolationsmodells im Pixelraum als Nachbearbeitungsstufe oder durch das Trainieren eines Interpolationsmodells im latenten Raum für ein spezifisches Basisvideomodell. In diesem Paper schlagen wir eine trainingsfreie Videointerpolationsmethode für generative Videodiffusionsmodelle vor, die auf verschiedene Modelle in einer Plug-and-Play-Manier übertragbar ist. Wir untersuchen die Nichtlinearität im Merkmalsraum von Videodiffusionsmodellen und verwandeln ein Videomodell in ein selbstkaskadiertes Videodiffusionsmodell, indem wir die entworfenen versteckten Zustandskorrekturmodule integrieren. Die selbstkaskadierte Architektur und das Korrekturmodul werden vorgeschlagen, um die zeitliche Konsistenz zwischen Schlüsselbildern und den interpolierten Frames zu bewahren. Umfangreiche Evaluationen werden an mehreren populären Videomodellen durchgeführt, um die Wirksamkeit der vorgeschlagenen Methode zu demonstrieren, insbesondere dass unsere trainingsfreie Methode sogar mit trainierten Interpolationsmodellen vergleichbar ist, die von großen Rechenressourcen und umfangreichen Datensätzen unterstützt werden.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.Summary
AI-Generated Summary