ChatPaper.aiChatPaper

VideoCrafter1: Modelos de Difusão Aberta para Geração de Vídeos de Alta Qualidade

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

October 30, 2023
Autores: Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
cs.AI

Resumo

A geração de vídeo tem ganhado cada vez mais interesse tanto na academia quanto na indústria. Embora ferramentas comerciais possam gerar vídeos plausíveis, há um número limitado de modelos de código aberto disponíveis para pesquisadores e engenheiros. Neste trabalho, introduzimos dois modelos de difusão para geração de vídeos de alta qualidade, nomeadamente modelos de texto-para-vídeo (T2V) e imagem-para-vídeo (I2V). Os modelos T2V sintetizam um vídeo com base em um texto de entrada fornecido, enquanto os modelos I2V incorporam uma imagem adicional como entrada. Nosso modelo T2V proposto é capaz de gerar vídeos realistas e de qualidade cinematográfica com uma resolução de 1024x576, superando outros modelos T2V de código aberto em termos de qualidade. O modelo I2V foi projetado para produzir vídeos que aderem estritamente ao conteúdo da imagem de referência fornecida, preservando seu conteúdo, estrutura e estilo. Este modelo é o primeiro modelo de base I2V de código aberto capaz de transformar uma imagem dada em um clipe de vídeo, mantendo as restrições de preservação de conteúdo. Acreditamos que esses modelos de geração de vídeo de código aberto contribuirão significativamente para os avanços tecnológicos dentro da comunidade.
English
Video generation has increasingly gained interest in both academia and industry. Although commercial tools can generate plausible videos, there is a limited number of open-source models available for researchers and engineers. In this work, we introduce two diffusion models for high-quality video generation, namely text-to-video (T2V) and image-to-video (I2V) models. T2V models synthesize a video based on a given text input, while I2V models incorporate an additional image input. Our proposed T2V model can generate realistic and cinematic-quality videos with a resolution of 1024 times 576, outperforming other open-source T2V models in terms of quality. The I2V model is designed to produce videos that strictly adhere to the content of the provided reference image, preserving its content, structure, and style. This model is the first open-source I2V foundation model capable of transforming a given image into a video clip while maintaining content preservation constraints. We believe that these open-source video generation models will contribute significantly to the technological advancements within the community.
PDF162February 8, 2026