ChatPaper.aiChatPaper

ExVideo: Erweiterung von Videodiffusionsmodellen durch parameter-effizientes Feintuning

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

June 20, 2024
Autoren: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI

Zusammenfassung

In letzter Zeit haben Fortschritte in der Videosynthese erhebliche Aufmerksamkeit erregt. Videosynthese-Modelle wie AnimateDiff und Stable Video Diffusion haben die praktische Anwendbarkeit von Diffusionsmodellen bei der Erstellung dynamischer visueller Inhalte gezeigt. Das Aufkommen von SORA hat das Potenzial von Videogenerierungstechnologien weiter in den Mittelpunkt gerückt. Dennoch wurde die Erweiterung von Videolängen durch die Beschränkungen in den Rechenressourcen eingeschränkt. Die meisten bestehenden Videosynthese-Modelle können nur kurze Videoclips generieren. In diesem Paper schlagen wir eine neuartige Post-Tuning-Methodologie für Videosynthese-Modelle namens ExVideo vor. Dieser Ansatz zielt darauf ab, die Leistungsfähigkeit aktueller Videosynthese-Modelle zu verbessern, sodass sie Inhalte über erweiterte zeitliche Dauer produzieren können, während die Trainingskosten gesenkt werden. Insbesondere entwerfen wir Erweiterungsstrategien für gängige zeitliche Modellarchitekturen, darunter 3D-Faltung, zeitliche Aufmerksamkeit und Positionseinbettung. Zur Bewertung der Wirksamkeit unseres vorgeschlagenen Post-Tuning-Ansatzes führen wir eine Erweiterungsschulung am Stable Video Diffusion-Modell durch. Unser Ansatz erweitert die Kapazität des Modells, bis zu 5-mal so viele Frames zu generieren wie ursprünglich, wobei nur 1,5k GPU-Stunden Training auf einem Datensatz von 40k Videos erforderlich sind. Wichtig ist, dass die erhebliche Zunahme der Videolänge die angeborenen Verallgemeinerungsfähigkeiten des Modells nicht beeinträchtigt, und das Modell zeigt seine Vorteile bei der Generierung von Videos in verschiedenen Stilen und Auflösungen. Wir werden den Quellcode und das verbesserte Modell öffentlich freigeben.
English
Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model's capacity to generate up to 5times its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn't compromise the model's innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.

Summary

AI-Generated Summary

PDF103December 2, 2024