La ricerca di prior migliora la sintesi da testo a video
Searching Priors Makes Text-to-Video Synthesis Better
June 5, 2024
Autori: Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu
cs.AI
Abstract
I significativi progressi nei modelli di diffusione video hanno portato a sostanziali avanzamenti nel campo della sintesi da testo a video (T2V). Tuttavia, i modelli esistenti di sintesi T2V faticano a generare accuratamente dinamiche di movimento complesse, portando a una riduzione del realismo dei video. Una possibile soluzione è raccogliere una grande quantità di dati e addestrare il modello su di essi, ma ciò sarebbe estremamente costoso. Per alleviare questo problema, in questo articolo, riformuliamo il tipico processo di generazione T2V come una pipeline di generazione basata sulla ricerca. Invece di aumentare le dimensioni dell'addestramento del modello, utilizziamo video esistenti come database di priorità di movimento. Nello specifico, dividiamo il processo di generazione T2V in due passaggi: (i) Per un dato input di prompt, cerchiamo nei dataset esistenti di testo-video per trovare video con etichette di testo che corrispondano strettamente ai movimenti del prompt. Proponiamo un algoritmo di ricerca personalizzato che enfatizza le caratteristiche del movimento degli oggetti. (ii) I video recuperati vengono elaborati e distillati in priorità di movimento per affinare un modello T2V di base pre-addestrato, seguito dalla generazione dei video desiderati utilizzando il prompt di input. Utilizzando le priorità ottenute dai video ricercati, miglioriamo il realismo del movimento dei video generati. Tutte le operazioni possono essere completate su una singola GPU NVIDIA RTX 4090. Validiamo il nostro metodo rispetto ai modelli T2V all'avanguardia su diversi input di prompt. Il codice sarà reso pubblico.
English
Significant advancements in video diffusion models have brought substantial
progress to the field of text-to-video (T2V) synthesis. However, existing T2V
synthesis model struggle to accurately generate complex motion dynamics,
leading to a reduction in video realism. One possible solution is to collect
massive data and train the model on it, but this would be extremely expensive.
To alleviate this problem, in this paper, we reformulate the typical T2V
generation process as a search-based generation pipeline. Instead of scaling up
the model training, we employ existing videos as the motion prior database.
Specifically, we divide T2V generation process into two steps: (i) For a given
prompt input, we search existing text-video datasets to find videos with text
labels that closely match the prompt motions. We propose a tailored search
algorithm that emphasizes object motion features. (ii) Retrieved videos are
processed and distilled into motion priors to fine-tune a pre-trained base T2V
model, followed by generating desired videos using input prompt. By utilizing
the priors gleaned from the searched videos, we enhance the realism of the
generated videos' motion. All operations can be finished on a single NVIDIA RTX
4090 GPU. We validate our method against state-of-the-art T2V models across
diverse prompt inputs. The code will be public.