ChatPaper.aiChatPaper

VIMI : Ancrage de la génération vidéo par instruction multimodale

VIMI: Grounding Video Generation through Multi-modal Instruction

July 8, 2024
papers.authors: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI

papers.abstract

Les modèles de diffusion texte-vidéo existants reposent exclusivement sur des encodeurs textuels pour leur pré-entraînement. Cette limitation découle de l'absence de jeux de données vidéo à grande échelle avec invites multimodales, entraînant un manque d'ancrage visuel et restreignant leur polyvalence et leur application dans l'intégration multimodale. Pour remédier à cela, nous construisons un jeu de données d'invites multimodales à grande échelle en utilisant des méthodes de recherche pour associer des exemples contextuels aux invites textuelles données, puis nous utilisons une stratégie d'entraînement en deux étapes pour permettre diverses tâches de génération vidéo au sein du même modèle. Dans la première étape, nous proposons un cadre de génération vidéo conditionnelle multimodale pour le pré-entraînement sur ces jeux de données augmentés, établissant un modèle de base pour la génération vidéo ancrée. Ensuite, nous affinons le modèle de la première étape sur trois tâches de génération vidéo, en incorporant des instructions multimodales. Ce processus affine davantage la capacité du modèle à gérer des entrées et des tâches variées, assurant une intégration fluide des informations multimodales. Après ce processus d'entraînement en deux étapes, VIMI démontre des capacités de compréhension multimodale, produisant des vidéos contextuellement riches et personnalisées ancrées dans les entrées fournies, comme illustré dans la Figure 1. Par rapport aux méthodes précédentes de génération vidéo ancrée visuellement, VIMI peut synthétiser des vidéos cohérentes et temporellement cohérentes avec des mouvements importants tout en conservant le contrôle sémantique. Enfin, VIMI atteint également des résultats de pointe en génération texte-vidéo sur le benchmark UCF101.
English
Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.
PDF101November 28, 2024