ExVideo: Uitbreiding van videodiffusiemodellen via parameter-efficiënte na-afstemming
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Auteurs: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Samenvatting
Recentelijk hebben vooruitgangen in videosynthese aanzienlijke aandacht getrokken. Videosynthesemodellen zoals AnimateDiff en Stable Video Diffusion hebben de praktische toepasbaarheid van diffusiemodellen aangetoond bij het creëren van dynamische visuele content. De opkomst van SORA heeft het potentieel van videogeneratietechnologieën verder belicht. Desalniettemin is de verlenging van videolengtes beperkt door de beperkingen in rekenbronnen. De meeste bestaande videosynthesemodellen kunnen alleen korte videoclips genereren. In dit artikel stellen we een nieuwe post-tuningmethodologie voor videosynthesemodellen voor, genaamd ExVideo. Deze aanpak is ontworpen om de capaciteit van huidige videosynthesemodellen te verbeteren, waardoor ze content over langere tijdsduren kunnen produceren tegen lagere trainingskosten. In het bijzonder ontwerpen we uitbreidingsstrategieën voor veelvoorkomende temporele modelarchitecturen, waaronder 3D-convolutie, temporele aandacht en positionele inbedding. Om de effectiviteit van onze voorgestelde post-tuningaanpak te evalueren, voeren we uitbreidingstraining uit op het Stable Video Diffusion-model. Onze aanpak vergroot de capaciteit van het model om tot 5 keer het oorspronkelijke aantal frames te genereren, met slechts 1,5k GPU-uren training op een dataset bestaande uit 40k video's. Belangrijk is dat de aanzienlijke toename in videolengte de inherente generalisatiecapaciteiten van het model niet aantast, en het model toont zijn voordelen in het genereren van video's van diverse stijlen en resoluties. We zullen de broncode en het verbeterde model openbaar vrijgeven.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.