ChatPaper.aiChatPaper

VIMI: Основание генерации видео через мультимодальные инструкции

VIMI: Grounding Video Generation through Multi-modal Instruction

July 8, 2024
Авторы: Yuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov
cs.AI

Аннотация

Существующие модели преобразования текста в видео полагаются исключительно на кодировщики только текста для их предварительного обучения. Это ограничение обусловлено отсутствием масштабных мультимодальных наборов данных видео-подсказок, что приводит к отсутствию визуальной привязки и ограничивает их универсальность и применение в мультимодальной интеграции. Для решения этой проблемы мы создаем масштабный мультимодальный набор данных видео-подсказок, используя методы извлечения для сопоставления примеров в контексте с данными текстовыми подсказками, а затем применяем двухэтапную стратегию обучения для обеспечения разнообразных задач генерации видео в рамках одной модели. На первом этапе мы предлагаем мультимодальную условную модель генерации видео для предварительного обучения на этих расширенных наборах данных, устанавливая основополагающую модель для генерации видео с визуальной привязкой. Во-вторых, мы донастраиваем модель с первого этапа на трех задачах генерации видео, включая мультимодальные инструкции. Этот процесс дополнительно улучшает способность модели обрабатывать разнообразные входные данные и задачи, обеспечивая беспрепятственную интеграцию мультимодальной информации. После этого двухэтапного процесса обучения VIMI демонстрирует возможности мультимодального понимания, создавая контекстно насыщенные и персонализированные видео, основанные на предоставленных входных данных, как показано на рисунке 1. По сравнению с предыдущими методами генерации видео с визуальной привязкой, VIMI способен синтезировать последовательные и временно согласованные видео с большим движением, сохраняя семантический контроль. Наконец, VIMI также достигает лучших результатов генерации текста в видео на бенчмарке UCF101.
English
Existing text-to-video diffusion models rely solely on text-only encoders for their pretraining. This limitation stems from the absence of large-scale multimodal prompt video datasets, resulting in a lack of visual grounding and restricting their versatility and application in multimodal integration. To address this, we construct a large-scale multimodal prompt dataset by employing retrieval methods to pair in-context examples with the given text prompts and then utilize a two-stage training strategy to enable diverse video generation tasks within the same model. In the first stage, we propose a multimodal conditional video generation framework for pretraining on these augmented datasets, establishing a foundational model for grounded video generation. Secondly, we finetune the model from the first stage on three video generation tasks, incorporating multi-modal instructions. This process further refines the model's ability to handle diverse inputs and tasks, ensuring seamless integration of multi-modal information. After this two-stage train-ing process, VIMI demonstrates multimodal understanding capabilities, producing contextually rich and personalized videos grounded in the provided inputs, as shown in Figure 1. Compared to previous visual grounded video generation methods, VIMI can synthesize consistent and temporally coherent videos with large motion while retaining the semantic control. Lastly, VIMI also achieves state-of-the-art text-to-video generation results on UCF101 benchmark.

Summary

AI-Generated Summary

PDF101November 28, 2024