VIMI: Fondare la Generazione di Video attraverso Istruzioni Multi-modali

Abstract

I modelli di diffusione testo-video esistenti si basano esclusivamente su encoder testuali per il loro pre-addestramento. Questa limitazione deriva dall'assenza di dataset video multimodali su larga scala, risultando in una mancanza di ancoraggio visivo e limitando la loro versatilità e applicazione nell'integrazione multimodale. Per affrontare questo problema, costruiamo un ampio dataset di prompt multimodali utilizzando metodi di recupero per associare esempi contestuali ai prompt testuali forniti, e poi impieghiamo una strategia di addestramento in due fasi per abilitare diverse attività di generazione video all'interno dello stesso modello. Nella prima fase, proponiamo un framework di generazione video condizionale multimodale per il pre-addestramento su questi dataset arricchiti, stabilendo un modello di base per la generazione video ancorata. Nella seconda fase, ottimizziamo il modello della prima fase su tre compiti di generazione video, incorporando istruzioni multimodali. Questo processo affina ulteriormente la capacità del modello di gestire input e compiti diversi, garantendo un'integrazione fluida delle informazioni multimodali. Dopo questo processo di addestramento in due fasi, VIMI dimostra capacità di comprensione multimodale, producendo video contestualmente ricchi e personalizzati ancorati agli input forniti, come mostrato nella Figura 1. Rispetto ai precedenti metodi di generazione video ancorati visivamente, VIMI è in grado di sintetizzare video coerenti e temporalmente fluidi con ampi movimenti, mantenendo il controllo semantico. Infine, VIMI raggiunge anche risultati all'avanguardia nella generazione testo-video sul benchmark UCF101.

English

Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.

VIMI: Fondare la Generazione di Video attraverso Istruzioni Multi-modali

VIMI: Grounding Video Generation through Multi-modal Instruction

Abstract

Support