ChatPaper.aiChatPaper

VIMI: Fundamentação da Geração de Vídeo por meio de Instrução Multi-modal

VIMI: Grounding Video Generation through Multi-modal Instruction

July 8, 2024
Autores: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI

Resumo

Os modelos existentes de difusão de texto para vídeo dependem exclusivamente de codificadores de texto para seu pré-treinamento. Essa limitação decorre da ausência de conjuntos de dados de vídeo multimodais em grande escala, resultando em uma falta de fundamentação visual e restringindo sua versatilidade e aplicação na integração multimodal. Para lidar com isso, construímos um conjunto de dados multimodal de prompt em grande escala, empregando métodos de recuperação para associar exemplos no contexto com os prompts de texto fornecidos e, em seguida, utilizamos uma estratégia de treinamento em duas etapas para permitir diversas tarefas de geração de vídeo dentro do mesmo modelo. Na primeira etapa, propomos um framework de geração de vídeo condicional multimodal para pré-treinamento nesses conjuntos de dados aumentados, estabelecendo um modelo fundamental para geração de vídeo fundamentada. Em seguida, ajustamos o modelo da primeira etapa em três tarefas de geração de vídeo, incorporando instruções multimodais. Esse processo aprimora ainda mais a capacidade do modelo de lidar com entradas e tarefas diversas, garantindo a integração perfeita de informações multimodais. Após esse processo de treinamento em duas etapas, o VIMI demonstra capacidades de compreensão multimodal, produzindo vídeos contextualmente ricos e personalizados fundamentados nas entradas fornecidas, como mostrado na Figura 1. Em comparação com métodos anteriores de geração de vídeo fundamentada visualmente, o VIMI pode sintetizar vídeos consistentes e temporalmente coerentes com grande movimento, mantendo o controle semântico. Por fim, o VIMI também alcança resultados de geração de texto para vídeo de ponta no benchmark UCF101.
English
Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.
PDF101November 28, 2024