VideoElevator: Elevare la Qualità della Generazione Video con Modelli di Diffusione Versatili da Testo a Immagine
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models
March 8, 2024
Autori: Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
cs.AI
Abstract
I modelli di diffusione testo-immagine (T2I) hanno dimostrato capacità senza precedenti nella creazione di immagini realistiche ed esteticamente gradevoli. Al contrario, i modelli di diffusione testo-video (T2V) sono ancora molto indietro in termini di qualità dei fotogrammi e allineamento con il testo, a causa della qualità e quantità insufficienti dei video di addestramento. In questo articolo, introduciamo VideoElevator, un metodo plug-and-play e senza necessità di addestramento, che migliora le prestazioni dei T2V sfruttando le capacità superiori dei T2I. A differenza del campionamento convenzionale dei T2V (cioè, modellazione temporale e spaziale), VideoElevator scompone esplicitamente ogni passo di campionamento in raffinamento del movimento temporale e elevazione della qualità spaziale. Nello specifico, il raffinamento del movimento temporale utilizza un T2V incapsulato per migliorare la coerenza temporale, seguito da un'inversione alla distribuzione di rumore richiesta dal T2I. Successivamente, l'elevazione della qualità spaziale sfrutta un T2I espanso per prevedere direttamente un latente meno rumoroso, aggiungendo dettagli più fotorealistici. Abbiamo condotto esperimenti su un'ampia gamma di prompt combinando vari T2V e T2I. I risultati mostrano che VideoElevator non solo migliora le prestazioni delle baseline T2V con T2I di base, ma facilita anche la sintesi di video stilistici con T2I personalizzati. Il nostro codice è disponibile all'indirizzo https://github.com/YBYBZhang/VideoElevator.
English
Text-to-image diffusion models (T2I) have demonstrated unprecedented
capabilities in creating realistic and aesthetic images. On the contrary,
text-to-video diffusion models (T2V) still lag far behind in frame quality and
text alignment, owing to insufficient quality and quantity of training videos.
In this paper, we introduce VideoElevator, a training-free and plug-and-play
method, which elevates the performance of T2V using superior capabilities of
T2I. Different from conventional T2V sampling (i.e., temporal and spatial
modeling), VideoElevator explicitly decomposes each sampling step into temporal
motion refining and spatial quality elevating. Specifically, temporal motion
refining uses encapsulated T2V to enhance temporal consistency, followed by
inverting to the noise distribution required by T2I. Then, spatial quality
elevating harnesses inflated T2I to directly predict less noisy latent, adding
more photo-realistic details. We have conducted experiments in extensive
prompts under the combination of various T2V and T2I. The results show that
VideoElevator not only improves the performance of T2V baselines with
foundational T2I, but also facilitates stylistic video synthesis with
personalized T2I. Our code is available at
https://github.com/YBYBZhang/VideoElevator.