I4VGen: L'immagine come trampolino per la generazione video da testo
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
Autori: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
Abstract
La generazione di video da testo è rimasta indietro rispetto alla sintesi di immagini da testo in termini di qualità e diversità a causa della complessità della modellazione spazio-temporale e della limitata disponibilità di dataset video-testo. Questo articolo presenta I4VGen, un framework di inferenza per la diffusione video senza necessità di addestramento e plug-and-play, che migliora la generazione di video da testo sfruttando tecniche avanzate per le immagini. Nello specifico, seguendo l'approccio testo-immagine-video, I4VGen scompone la generazione di video da testo in due fasi: sintesi dell'immagine di ancoraggio e sintesi del video guidata dall'immagine di ancoraggio. Di conseguenza, viene impiegata una pipeline ben progettata di generazione-selezione per ottenere un'immagine di ancoraggio visivamente realistica e semanticamente fedele, e viene incorporata un'innovativa tecnica di campionamento per la distillazione del punteggio video invariante al rumore (Noise-Invariant Video Score Distillation Sampling) per animare l'immagine in un video dinamico, seguita da un processo di rigenerazione video per affinare il risultato. Questa strategia di inferenza mitiga efficacemente il problema diffuso del rapporto segnale-rumore terminale non nullo. Valutazioni estensive dimostrano che I4VGen non solo produce video con un realismo visivo e una fedeltà testuale superiori, ma si integra perfettamente nei modelli esistenti di diffusione da immagine a video, migliorando così la qualità complessiva del video.
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.