VideoCrafter1: Открытые диффузионные модели для генерации высококачественного видео

Аннотация

Генерация видео вызывает растущий интерес как в академических кругах, так и в индустрии. Хотя коммерческие инструменты способны создавать правдоподобные видео, количество открытых моделей, доступных для исследователей и инженеров, остается ограниченным. В данной работе мы представляем две диффузионные модели для генерации высококачественного видео: модели text-to-video (T2V) и image-to-video (I2V). Модели T2V синтезируют видео на основе заданного текстового описания, тогда как модели I2V используют дополнительное изображение в качестве входных данных. Наша предложенная модель T2V способна генерировать реалистичные видео кинематографического качества с разрешением 1024×576, превосходя другие открытые модели T2V по качеству. Модель I2V разработана для создания видео, которые строго соответствуют содержанию предоставленного эталонного изображения, сохраняя его содержание, структуру и стиль. Эта модель является первой открытой базовой моделью I2V, способной преобразовывать заданное изображение в видеоклип с соблюдением ограничений на сохранение содержания. Мы уверены, что эти открытые модели генерации видео внесут значительный вклад в технологическое развитие сообщества.

English

Video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers and engineers. In this work, we introduce two diffusion models for high-quality video generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V models synthesize a video based on a given text input, while I2V models incorporate an additional image input. Our proposed T2V model can generate realistic and cinematic-quality videos with a resolution of 1024 times 576, outperforming other open-source T2V models in terms of quality. The I2V model is designed to produce videos that strictly adhere to the content of the provided reference image, preserving its content, structure, and style. This model is the first open-source I2V foundation model capable of transforming a given image into a video clip while maintaining content preservation constraints. We believe that these open-source video generation models will contribute significantly to the technological advancements within the community.

VideoCrafter1: Открытые диффузионные модели для генерации высококачественного видео

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

Аннотация

Support