I4VGen: L'immagine come trampolino per la generazione video da testo

Abstract

La generazione di video da testo è rimasta indietro rispetto alla sintesi di immagini da testo in termini di qualità e diversità a causa della complessità della modellazione spazio-temporale e della limitata disponibilità di dataset video-testo. Questo articolo presenta I4VGen, un framework di inferenza per la diffusione video senza necessità di addestramento e plug-and-play, che migliora la generazione di video da testo sfruttando tecniche avanzate per le immagini. Nello specifico, seguendo l'approccio testo-immagine-video, I4VGen scompone la generazione di video da testo in due fasi: sintesi dell'immagine di ancoraggio e sintesi del video guidata dall'immagine di ancoraggio. Di conseguenza, viene impiegata una pipeline ben progettata di generazione-selezione per ottenere un'immagine di ancoraggio visivamente realistica e semanticamente fedele, e viene incorporata un'innovativa tecnica di campionamento per la distillazione del punteggio video invariante al rumore (Noise-Invariant Video Score Distillation Sampling) per animare l'immagine in un video dinamico, seguita da un processo di rigenerazione video per affinare il risultato. Questa strategia di inferenza mitiga efficacemente il problema diffuso del rapporto segnale-rumore terminale non nullo. Valutazioni estensive dimostrano che I4VGen non solo produce video con un realismo visivo e una fedeltà testuale superiori, ma si integra perfettamente nei modelli esistenti di diffusione da immagine a video, migliorando così la qualità complessiva del video.

English

Text-to-video generation has lagged behind text-to-image synthesis in quality and diversity due to the complexity of spatio-temporal modeling and limited video-text datasets. This paper presents I4VGen, a training-free and plug-and-play video diffusion inference framework, which enhances text-to-video generation by leveraging robust image techniques. Specifically, following text-to-image-to-video, I4VGen decomposes the text-to-video generation into two stages: anchor image synthesis and anchor image-guided video synthesis. Correspondingly, a well-designed generation-selection pipeline is employed to achieve visually-realistic and semantically-faithful anchor image, and an innovative Noise-Invariant Video Score Distillation Sampling is incorporated to animate the image to a dynamic video, followed by a video regeneration process to refine the video. This inference strategy effectively mitigates the prevalent issue of non-zero terminal signal-to-noise ratio. Extensive evaluations show that I4VGen not only produces videos with higher visual realism and textual fidelity but also integrates seamlessly into existing image-to-video diffusion models, thereby improving overall video quality.

I4VGen: L'immagine come trampolino per la generazione video da testo

I4VGen: Image as Stepping Stone for Text-to-Video Generation

Abstract

Support