ChatPaper.aiChatPaper

I2VGen-XL: Высококачественный синтез видео из изображений с использованием каскадных диффузионных моделей

I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion Models

November 7, 2023
Авторы: Shiwei Zhang, Jiayu Wang, Yingya Zhang, Kang Zhao, Hangjie Yuan, Zhiwu Qin, Xiang Wang, Deli Zhao, Jingren Zhou
cs.AI

Аннотация

Синтез видео в последнее время достиг значительных успехов благодаря быстрому развитию диффузионных моделей. Однако он по-прежнему сталкивается с проблемами в области семантической точности, четкости и пространственно-временной непрерывности. Эти трудности возникают в основном из-за недостатка хорошо согласованных текстово-видео данных и сложной внутренней структуры видео, что затрудняет одновременное обеспечение семантического и качественного превосходства модели. В данном отчете мы предлагаем каскадный подход I2VGen-XL, который повышает производительность модели за счет разделения этих двух факторов и обеспечивает согласованность входных данных, используя статические изображения в качестве ключевого ориентира. I2VGen-XL состоит из двух этапов: i) базовый этап гарантирует согласованную семантику и сохраняет содержание входных изображений с использованием двух иерархических кодировщиков, и ii) этап улучшения детализирует видео за счет добавления краткого текста и повышает разрешение до 1280×720. Для повышения разнообразия мы собрали около 35 миллионов одиночных текстово-видео пар и 6 миллиардов текстово-изображений для оптимизации модели. Таким образом, I2VGen-XL может одновременно улучшать семантическую точность, непрерывность деталей и четкость генерируемых видео. В ходе обширных экспериментов мы изучили основные принципы работы I2VGen-XL и сравнили его с современными передовыми методами, что демонстрирует его эффективность на разнообразных данных. Исходный код и модели будут общедоступны по адресу https://i2vgen-xl.github.io.
English
Video synthesis has recently made remarkable strides benefiting from the rapid development of diffusion models. However, it still encounters challenges in terms of semantic accuracy, clarity and spatio-temporal continuity. They primarily arise from the scarcity of well-aligned text-video data and the complex inherent structure of videos, making it difficult for the model to simultaneously ensure semantic and qualitative excellence. In this report, we propose a cascaded I2VGen-XL approach that enhances model performance by decoupling these two factors and ensures the alignment of the input data by utilizing static images as a form of crucial guidance. I2VGen-XL consists of two stages: i) the base stage guarantees coherent semantics and preserves content from input images by using two hierarchical encoders, and ii) the refinement stage enhances the video's details by incorporating an additional brief text and improves the resolution to 1280times720. To improve the diversity, we collect around 35 million single-shot text-video pairs and 6 billion text-image pairs to optimize the model. By this means, I2VGen-XL can simultaneously enhance the semantic accuracy, continuity of details and clarity of generated videos. Through extensive experiments, we have investigated the underlying principles of I2VGen-XL and compared it with current top methods, which can demonstrate its effectiveness on diverse data. The source code and models will be publicly available at https://i2vgen-xl.github.io.
PDF353December 15, 2024