La ricerca di prior migliora la sintesi da testo a video

Abstract

I significativi progressi nei modelli di diffusione video hanno portato a sostanziali avanzamenti nel campo della sintesi da testo a video (T2V). Tuttavia, i modelli esistenti di sintesi T2V faticano a generare accuratamente dinamiche di movimento complesse, portando a una riduzione del realismo dei video. Una possibile soluzione è raccogliere una grande quantità di dati e addestrare il modello su di essi, ma ciò sarebbe estremamente costoso. Per alleviare questo problema, in questo articolo, riformuliamo il tipico processo di generazione T2V come una pipeline di generazione basata sulla ricerca. Invece di aumentare le dimensioni dell'addestramento del modello, utilizziamo video esistenti come database di priorità di movimento. Nello specifico, dividiamo il processo di generazione T2V in due passaggi: (i) Per un dato input di prompt, cerchiamo nei dataset esistenti di testo-video per trovare video con etichette di testo che corrispondano strettamente ai movimenti del prompt. Proponiamo un algoritmo di ricerca personalizzato che enfatizza le caratteristiche del movimento degli oggetti. (ii) I video recuperati vengono elaborati e distillati in priorità di movimento per affinare un modello T2V di base pre-addestrato, seguito dalla generazione dei video desiderati utilizzando il prompt di input. Utilizzando le priorità ottenute dai video ricercati, miglioriamo il realismo del movimento dei video generati. Tutte le operazioni possono essere completate su una singola GPU NVIDIA RTX 4090. Validiamo il nostro metodo rispetto ai modelli T2V all'avanguardia su diversi input di prompt. Il codice sarà reso pubblico.

English

Significant advancements in video diffusion models have brought substantial progress to the field of text-to-video (T2V) synthesis. However, existing T2V synthesis model struggle to accurately generate complex motion dynamics, leading to a reduction in video realism. One possible solution is to collect massive data and train the model on it, but this would be extremely expensive. To alleviate this problem, in this paper, we reformulate the typical T2V generation process as a search-based generation pipeline. Instead of scaling up the model training, we employ existing videos as the motion prior database. Specifically, we divide T2V generation process into two steps: (i) For a given prompt input, we search existing text-video datasets to find videos with text labels that closely match the prompt motions. We propose a tailored search algorithm that emphasizes object motion features. (ii) Retrieved videos are processed and distilled into motion priors to fine-tune a pre-trained base T2V model, followed by generating desired videos using input prompt. By utilizing the priors gleaned from the searched videos, we enhance the realism of the generated videos' motion. All operations can be finished on a single NVIDIA RTX 4090 GPU. We validate our method against state-of-the-art T2V models across diverse prompt inputs. The code will be public.

La ricerca di prior migliora la sintesi da testo a video

Searching Priors Makes Text-to-Video Synthesis Better

Abstract

Support