VIMI: Fondare la Generazione di Video attraverso Istruzioni Multi-modali
VIMI: Grounding Video Generation through Multi-modal Instruction
July 8, 2024
Autori: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI
Abstract
I modelli di diffusione testo-video esistenti si basano esclusivamente su encoder testuali per il loro pre-addestramento. Questa limitazione deriva dall'assenza di dataset video multimodali su larga scala, risultando in una mancanza di ancoraggio visivo e limitando la loro versatilità e applicazione nell'integrazione multimodale. Per affrontare questo problema, costruiamo un ampio dataset di prompt multimodali utilizzando metodi di recupero per associare esempi contestuali ai prompt testuali forniti, e poi impieghiamo una strategia di addestramento in due fasi per abilitare diverse attività di generazione video all'interno dello stesso modello. Nella prima fase, proponiamo un framework di generazione video condizionale multimodale per il pre-addestramento su questi dataset arricchiti, stabilendo un modello di base per la generazione video ancorata. Nella seconda fase, ottimizziamo il modello della prima fase su tre compiti di generazione video, incorporando istruzioni multimodali. Questo processo affina ulteriormente la capacità del modello di gestire input e compiti diversi, garantendo un'integrazione fluida delle informazioni multimodali. Dopo questo processo di addestramento in due fasi, VIMI dimostra capacità di comprensione multimodale, producendo video contestualmente ricchi e personalizzati ancorati agli input forniti, come mostrato nella Figura 1. Rispetto ai precedenti metodi di generazione video ancorati visivamente, VIMI è in grado di sintetizzare video coerenti e temporalmente fluidi con ampi movimenti, mantenendo il controllo semantico. Infine, VIMI raggiunge anche risultati all'avanguardia nella generazione testo-video sul benchmark UCF101.
English
Existing text-to-video diffusion models rely solely on text-only encoders for
their pretraining. This limitation stems from the absence of large-scale
multimodal prompt video datasets, resulting in a lack of visual grounding and
restricting their versatility and application in multimodal integration. To
address this, we construct a large-scale multimodal prompt dataset by employing
retrieval methods to pair in-context examples with the given text prompts and
then utilize a two-stage training strategy to enable diverse video generation
tasks within the same model. In the first stage, we propose a multimodal
conditional video generation framework for pretraining on these augmented
datasets, establishing a foundational model for grounded video generation.
Secondly, we finetune the model from the first stage on three video generation
tasks, incorporating multi-modal instructions. This process further refines the
model's ability to handle diverse inputs and tasks, ensuring seamless
integration of multi-modal information. After this two-stage train-ing process,
VIMI demonstrates multimodal understanding capabilities, producing contextually
rich and personalized videos grounded in the provided inputs, as shown in
Figure 1. Compared to previous visual grounded video generation methods, VIMI
can synthesize consistent and temporally coherent videos with large motion
while retaining the semantic control. Lastly, VIMI also achieves
state-of-the-art text-to-video generation results on UCF101 benchmark.