VideoCrafter2: Superando Limitações de Dados para Modelos de Difusão de Vídeo de Alta Qualidade

Resumo

A geração de texto para vídeo tem como objetivo produzir um vídeo com base em um prompt fornecido. Recentemente, vários modelos comerciais de vídeo conseguiram gerar vídeos plausíveis com ruído mínimo, detalhes excelentes e altas pontuações estéticas. No entanto, esses modelos dependem de vídeos em grande escala, bem filtrados e de alta qualidade que não estão acessíveis à comunidade. Muitos trabalhos de pesquisa existentes, que treinam modelos usando o conjunto de dados WebVid-10M de baixa qualidade, lutam para gerar vídeos de alta qualidade porque os modelos são otimizados para se ajustar ao WebVid-10M. Neste trabalho, exploramos o esquema de treinamento de modelos de vídeo estendidos a partir do Stable Diffusion e investigamos a viabilidade de aproveitar vídeos de baixa qualidade e imagens sintetizadas de alta qualidade para obter um modelo de vídeo de alta qualidade. Primeiro, analisamos a conexão entre os módulos espaciais e temporais dos modelos de vídeo e a mudança de distribuição para vídeos de baixa qualidade. Observamos que o treinamento completo de todos os módulos resulta em um acoplamento mais forte entre os módulos espaciais e temporais do que apenas o treinamento dos módulos temporais. Com base nesse acoplamento mais forte, mudamos a distribuição para uma qualidade superior sem degradação de movimento, ajustando os módulos espaciais com imagens de alta qualidade, resultando em um modelo de vídeo genérico de alta qualidade. Avaliações são realizadas para demonstrar a superioridade do método proposto, particularmente em qualidade de imagem, movimento e composição de conceitos.

English

Text-to-video generation aims to produce a video based on a given prompt. Recently, several commercial video models have been able to generate plausible videos with minimal noise, excellent details, and high aesthetic scores. However, these models rely on large-scale, well-filtered, high-quality videos that are not accessible to the community. Many existing research works, which train models using the low-quality WebVid-10M dataset, struggle to generate high-quality videos because the models are optimized to fit WebVid-10M. In this work, we explore the training scheme of video models extended from Stable Diffusion and investigate the feasibility of leveraging low-quality videos and synthesized high-quality images to obtain a high-quality video model. We first analyze the connection between the spatial and temporal modules of video models and the distribution shift to low-quality videos. We observe that full training of all modules results in a stronger coupling between spatial and temporal modules than only training temporal modules. Based on this stronger coupling, we shift the distribution to higher quality without motion degradation by finetuning spatial modules with high-quality images, resulting in a generic high-quality video model. Evaluations are conducted to demonstrate the superiority of the proposed method, particularly in picture quality, motion, and concept composition.

VideoCrafter2: Superando Limitações de Dados para Modelos de Difusão de Vídeo de Alta Qualidade

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

Resumo

Support