VideoCrafter2: Superando Limitações de Dados para Modelos de Difusão de Vídeo de Alta Qualidade
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models
January 17, 2024
Autores: Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
cs.AI
Resumo
A geração de texto para vídeo tem como objetivo produzir um vídeo com base em um prompt fornecido. Recentemente, vários modelos comerciais de vídeo conseguiram gerar vídeos plausíveis com ruído mínimo, detalhes excelentes e altas pontuações estéticas. No entanto, esses modelos dependem de vídeos em grande escala, bem filtrados e de alta qualidade que não estão acessíveis à comunidade. Muitos trabalhos de pesquisa existentes, que treinam modelos usando o conjunto de dados WebVid-10M de baixa qualidade, lutam para gerar vídeos de alta qualidade porque os modelos são otimizados para se ajustar ao WebVid-10M. Neste trabalho, exploramos o esquema de treinamento de modelos de vídeo estendidos a partir do Stable Diffusion e investigamos a viabilidade de aproveitar vídeos de baixa qualidade e imagens sintetizadas de alta qualidade para obter um modelo de vídeo de alta qualidade. Primeiro, analisamos a conexão entre os módulos espaciais e temporais dos modelos de vídeo e a mudança de distribuição para vídeos de baixa qualidade. Observamos que o treinamento completo de todos os módulos resulta em um acoplamento mais forte entre os módulos espaciais e temporais do que apenas o treinamento dos módulos temporais. Com base nesse acoplamento mais forte, mudamos a distribuição para uma qualidade superior sem degradação de movimento, ajustando os módulos espaciais com imagens de alta qualidade, resultando em um modelo de vídeo genérico de alta qualidade. Avaliações são realizadas para demonstrar a superioridade do método proposto, particularmente em qualidade de imagem, movimento e composição de conceitos.
English
Text-to-video generation aims to produce a video based on a given prompt.
Recently, several commercial video models have been able to generate plausible
videos with minimal noise, excellent details, and high aesthetic scores.
However, these models rely on large-scale, well-filtered, high-quality videos
that are not accessible to the community. Many existing research works, which
train models using the low-quality WebVid-10M dataset, struggle to generate
high-quality videos because the models are optimized to fit WebVid-10M. In this
work, we explore the training scheme of video models extended from Stable
Diffusion and investigate the feasibility of leveraging low-quality videos and
synthesized high-quality images to obtain a high-quality video model. We first
analyze the connection between the spatial and temporal modules of video models
and the distribution shift to low-quality videos. We observe that full training
of all modules results in a stronger coupling between spatial and temporal
modules than only training temporal modules. Based on this stronger coupling,
we shift the distribution to higher quality without motion degradation by
finetuning spatial modules with high-quality images, resulting in a generic
high-quality video model. Evaluations are conducted to demonstrate the
superiority of the proposed method, particularly in picture quality, motion,
and concept composition.