ZeroSmooth: Trainingsvrije Diffuser-aanpassing voor Generatie van Video's met Hoge Frame Rate
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Auteurs: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Samenvatting
Videogeneratie heeft de afgelopen jaren opmerkelijke vooruitgang geboekt, vooral sinds de opkomst van videodiffusiemodellen. Veel videogeneratiemodellen kunnen geloofwaardige synthetische video's produceren, zoals Stable Video Diffusion (SVD). De meeste videomodellen kunnen echter alleen video's met een lage framesnelheid genereren vanwege het beperkte GPU-geheugen en de moeilijkheid om een grote reeks frames te modelleren. De trainingsvideo's worden altijd uniform bemonsterd met een gespecificeerd interval voor temporele compressie. Eerdere methoden verhogen de framesnelheid door ofwel een video-interpolatiemodel in de pixelruimte te trainen als een nabewerkingsfase, ofwel een interpolatiemodel in de latente ruimte te trainen voor een specifiek basisvideomodel. In dit artikel stellen we een trainingsvrije video-interpolatiemethode voor voor generatieve videodiffusiemodellen, die op een plug-and-play-manier generaliseerbaar is voor verschillende modellen. We onderzoeken de non-lineariteit in de kenmerkruimte van videodiffusiemodellen en transformeren een videomodel in een zelf-geschakeld videodiffusiemodel met de geïntegreerde ontworpen verborgen toestandscorrectiemodules. De zelf-geschakelde architectuur en het correctiemodule worden voorgesteld om de temporele consistentie tussen sleutelframes en de geïnterpoleerde frames te behouden. Uitgebreide evaluaties worden uitgevoerd op meerdere populaire videomodellen om de effectiviteit van de voorgestelde methode aan te tonen, vooral omdat onze trainingsvrije methode zelfs vergelijkbaar is met getrainde interpolatiemodellen die worden ondersteund door enorme rekenbronnen en grootschalige datasets.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.