VIMI: Fundamentación de la Generación de Video a través de Instrucciones Multi-modales
VIMI: Grounding Video Generation through Multi-modal Instruction
July 8, 2024
Autores: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI
Resumen
Los modelos existentes de difusión de texto a video se basan únicamente en codificadores de texto para su preentrenamiento. Esta limitación surge de la ausencia de conjuntos de datos de video multimodales a gran escala, lo que resulta en una falta de fundamentos visuales y restringe su versatilidad y aplicación en la integración multimodal. Para abordar esto, construimos un conjunto de datos multimodal de texto a video a gran escala mediante métodos de recuperación para emparejar ejemplos en contexto con los textos proporcionados y luego utilizamos una estrategia de entrenamiento de dos etapas para permitir diversas tareas de generación de video dentro del mismo modelo. En la primera etapa, proponemos un marco de generación de video condicional multimodal para el preentrenamiento en estos conjuntos de datos aumentados, estableciendo un modelo fundamental para la generación de video fundamentada. En segundo lugar, afinamos el modelo de la primera etapa en tres tareas de generación de video, incorporando instrucciones multimodales. Este proceso perfecciona aún más la capacidad del modelo para manejar entradas y tareas diversas, asegurando una integración fluida de la información multimodal. Después de este proceso de entrenamiento de dos etapas, VIMI demuestra capacidades de comprensión multimodal, produciendo videos contextualmente ricos y personalizados fundamentados en las entradas proporcionadas, como se muestra en la Figura 1. En comparación con los métodos anteriores de generación de video fundamentados visualmente, VIMI puede sintetizar videos consistentes y temporalmente coherentes con un gran movimiento, manteniendo el control semántico. Por último, VIMI también logra resultados de generación de texto a video de vanguardia en el banco de pruebas UCF101.
English
Existing text-to-video diffusion models rely solely on text-only encoders for
their pretraining. This limitation stems from the absence of large-scale
multimodal prompt video datasets, resulting in a lack of visual grounding and
restricting their versatility and application in multimodal integration. To
address this, we construct a large-scale multimodal prompt dataset by employing
retrieval methods to pair in-context examples with the given text prompts and
then utilize a two-stage training strategy to enable diverse video generation
tasks within the same model. In the first stage, we propose a multimodal
conditional video generation framework for pretraining on these augmented
datasets, establishing a foundational model for grounded video generation.
Secondly, we finetune the model from the first stage on three video generation
tasks, incorporating multi-modal instructions. This process further refines the
model's ability to handle diverse inputs and tasks, ensuring seamless
integration of multi-modal information. After this two-stage train-ing process,
VIMI demonstrates multimodal understanding capabilities, producing contextually
rich and personalized videos grounded in the provided inputs, as shown in
Figure 1. Compared to previous visual grounded video generation methods, VIMI
can synthesize consistent and temporally coherent videos with large motion
while retaining the semantic control. Lastly, VIMI also achieves
state-of-the-art text-to-video generation results on UCF101 benchmark.Summary
AI-Generated Summary