VIMI: Videogeneratie verankeren via multi-modale instructie
VIMI: Grounding Video Generation through Multi-modal Instruction
July 8, 2024
Auteurs: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI
Samenvatting
Bestaande tekst-naar-video diffusiemodellen vertrouwen uitsluitend op tekstencoders voor hun voorafgaande training. Deze beperking komt voort uit het ontbreken van grootschalige multimodale prompt-videodatasets, wat resulteert in een gebrek aan visuele verankering en hun veelzijdigheid en toepassing in multimodale integratie beperkt. Om dit aan te pakken, construeren we een grootschalige multimodale promptdataset door retrievemethoden te gebruiken om in-contextvoorbeelden te koppelen aan de gegeven tekstprompts en vervolgens een tweefasige trainingsstrategie te gebruiken om diverse videogeneratietaken binnen hetzelfde model mogelijk te maken. In de eerste fase stellen we een multimodaal conditioneel videogeneratieframework voor voor de voorafgaande training op deze uitgebreide datasets, waarmee een basis wordt gelegd voor verankerde videogeneratie. In de tweede fase finetunen we het model uit de eerste fase op drie videogeneratietaken, waarbij multimodale instructies worden geïntegreerd. Dit proces verfijnt verder het vermogen van het model om diverse invoer en taken te verwerken, waardoor een naadloze integratie van multimodale informatie wordt gegarandeerd. Na dit tweefasige trainingsproces toont VIMI multimodale begripscapaciteiten, waarbij contextueel rijke en gepersonaliseerde video's worden geproduceerd die verankerd zijn in de verstrekte invoer, zoals weergegeven in Figuur 1. In vergelijking met eerdere methoden voor visueel verankerde videogeneratie, kan VIMI consistente en temporeel coherente video's synthetiseren met grote bewegingen terwijl de semantische controle behouden blijft. Tot slot behaalt VIMI ook state-of-the-art tekst-naar-videogeneratieresultaten op de UCF101-benchmark.
English
Existing text-to-video diffusion models rely solely on text-only encoders for
their pretraining. This limitation stems from the absence of large-scale
multimodal prompt video datasets, resulting in a lack of visual grounding and
restricting their versatility and application in multimodal integration. To
address this, we construct a large-scale multimodal prompt dataset by employing
retrieval methods to pair in-context examples with the given text prompts and
then utilize a two-stage training strategy to enable diverse video generation
tasks within the same model. In the first stage, we propose a multimodal
conditional video generation framework for pretraining on these augmented
datasets, establishing a foundational model for grounded video generation.
Secondly, we finetune the model from the first stage on three video generation
tasks, incorporating multi-modal instructions. This process further refines the
model's ability to handle diverse inputs and tasks, ensuring seamless
integration of multi-modal information. After this two-stage train-ing process,
VIMI demonstrates multimodal understanding capabilities, producing contextually
rich and personalized videos grounded in the provided inputs, as shown in
Figure 1. Compared to previous visual grounded video generation methods, VIMI
can synthesize consistent and temporally coherent videos with large motion
while retaining the semantic control. Lastly, VIMI also achieves
state-of-the-art text-to-video generation results on UCF101 benchmark.