ChatPaper.aiChatPaper

OSV: Ein Schritt genügt für die Erzeugung von hochwertigen Videos aus Bildern.

OSV: One Step is Enough for High-Quality Image to Video Generation

September 17, 2024
Autoren: Xiaofeng Mao, Zhengkai Jiang, Fu-Yun Wang, Wenbing Zhu, Jiangning Zhang, Hao Chen, Mingmin Chi, Yabiao Wang
cs.AI

Zusammenfassung

Video-Diffusionsmodelle haben ein großes Potenzial gezeigt, hochwertige Videos zu generieren, wodurch sie zu einem zunehmend beliebten Schwerpunkt werden. Ihre inhärente iterative Natur führt jedoch zu erheblichen Rechen- und Zeitkosten. Obwohl Anstrengungen unternommen wurden, die Video-Diffusion zu beschleunigen, indem Inferenzschritte reduziert werden (durch Techniken wie Konsistenzdestillation) und GAN-Training (diese Ansätze fallen oft entweder in der Leistung oder im Trainingsstabilität kurz). In dieser Arbeit stellen wir ein Zwei-Stufen-Trainingsrahmen vor, der Konsistenzdestillation effektiv mit GAN-Training kombiniert, um diese Herausforderungen anzugehen. Darüber hinaus schlagen wir ein neuartiges Video-Diskriminator-Design vor, das das Decodieren der Video-Latenzen überflüssig macht und die endgültige Leistung verbessert. Unser Modell ist in der Lage, hochwertige Videos in nur einem Schritt zu erzeugen, mit der Flexibilität, eine Mehrschrittverfeinerung zur weiteren Leistungssteigerung durchzuführen. Unsere quantitative Bewertung am OpenWebVid-1M-Benchmark zeigt, dass unser Modell signifikant besser abschneidet als bestehende Methoden. Bemerkenswert ist, dass unsere 1-Schritt-Leistung (FVD 171,15) die 8-Schritt-Leistung der Konsistenzdestillation basierten Methode, AnimateLCM (FVD 184,79), übertrifft und sich der 25-Schritt-Leistung der fortschrittlichen Stable Video Diffusion (FVD 156,94) annähert.
English
Video diffusion models have shown great potential in generating high-quality videos, making them an increasingly popular focus. However, their inherent iterative nature leads to substantial computational and time costs. While efforts have been made to accelerate video diffusion by reducing inference steps (through techniques like consistency distillation) and GAN training (these approaches often fall short in either performance or training stability). In this work, we introduce a two-stage training framework that effectively combines consistency distillation with GAN training to address these challenges. Additionally, we propose a novel video discriminator design, which eliminates the need for decoding the video latents and improves the final performance. Our model is capable of producing high-quality videos in merely one-step, with the flexibility to perform multi-step refinement for further performance enhancement. Our quantitative evaluation on the OpenWebVid-1M benchmark shows that our model significantly outperforms existing methods. Notably, our 1-step performance(FVD 171.15) exceeds the 8-step performance of the consistency distillation based method, AnimateLCM (FVD 184.79), and approaches the 25-step performance of advanced Stable Video Diffusion (FVD 156.94).

Summary

AI-Generated Summary

PDF142November 16, 2024