ExVideo: Uitbreiding van videodiffusiemodellen via parameter-efficiënte na-afstemming

Samenvatting

Recentelijk hebben vooruitgangen in videosynthese aanzienlijke aandacht getrokken. Videosynthesemodellen zoals AnimateDiff en Stable Video Diffusion hebben de praktische toepasbaarheid van diffusiemodellen aangetoond bij het creëren van dynamische visuele content. De opkomst van SORA heeft het potentieel van videogeneratietechnologieën verder belicht. Desalniettemin is de verlenging van videolengtes beperkt door de beperkingen in rekenbronnen. De meeste bestaande videosynthesemodellen kunnen alleen korte videoclips genereren. In dit artikel stellen we een nieuwe post-tuningmethodologie voor videosynthesemodellen voor, genaamd ExVideo. Deze aanpak is ontworpen om de capaciteit van huidige videosynthesemodellen te verbeteren, waardoor ze content over langere tijdsduren kunnen produceren tegen lagere trainingskosten. In het bijzonder ontwerpen we uitbreidingsstrategieën voor veelvoorkomende temporele modelarchitecturen, waaronder 3D-convolutie, temporele aandacht en positionele inbedding. Om de effectiviteit van onze voorgestelde post-tuningaanpak te evalueren, voeren we uitbreidingstraining uit op het Stable Video Diffusion-model. Onze aanpak vergroot de capaciteit van het model om tot 5 keer het oorspronkelijke aantal frames te genereren, met slechts 1,5k GPU-uren training op een dataset bestaande uit 40k video's. Belangrijk is dat de aanzienlijke toename in videolengte de inherente generalisatiecapaciteiten van het model niet aantast, en het model toont zijn voordelen in het genereren van video's van diverse stijlen en resoluties. We zullen de broncode en het verbeterde model openbaar vrijgeven.

English

Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model's capacity to generate up to 5times its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn't compromise the model's innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.

ExVideo: Uitbreiding van videodiffusiemodellen via parameter-efficiënte na-afstemming

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Samenvatting

Support