VideoCrafter2: Superando las Limitaciones de Datos para Modelos de Difusión de Video de Alta Calidad

Resumen

La generación de texto a video tiene como objetivo producir un video basado en un texto descriptivo dado. Recientemente, varios modelos comerciales de video han sido capaces de generar videos plausibles con ruido mínimo, detalles excelentes y puntuaciones estéticas altas. Sin embargo, estos modelos dependen de videos a gran escala, bien filtrados y de alta calidad que no están accesibles para la comunidad. Muchos trabajos de investigación existentes, que entrenan modelos utilizando el conjunto de datos de baja calidad WebVid-10M, tienen dificultades para generar videos de alta calidad porque los modelos están optimizados para ajustarse a WebVid-10M. En este trabajo, exploramos el esquema de entrenamiento de modelos de video extendidos a partir de Stable Diffusion e investigamos la viabilidad de aprovechar videos de baja calidad e imágenes sintetizadas de alta calidad para obtener un modelo de video de alta calidad. Primero analizamos la conexión entre los módulos espaciales y temporales de los modelos de video y el cambio de distribución hacia videos de baja calidad. Observamos que el entrenamiento completo de todos los módulos resulta en un acoplamiento más fuerte entre los módulos espaciales y temporales que solo entrenar los módulos temporales. Basándonos en este acoplamiento más fuerte, cambiamos la distribución hacia una mayor calidad sin degradación del movimiento mediante el ajuste fino de los módulos espaciales con imágenes de alta calidad, lo que resulta en un modelo de video genérico de alta calidad. Se realizan evaluaciones para demostrar la superioridad del método propuesto, particularmente en calidad de imagen, movimiento y composición de conceptos.

English

Text-to-video generation aims to produce a video based on a given prompt. Recently, several commercial video models have been able to generate plausible videos with minimal noise, excellent details, and high aesthetic scores. However, these models rely on large-scale, well-filtered, high-quality videos that are not accessible to the community. Many existing research works, which train models using the low-quality WebVid-10M dataset, struggle to generate high-quality videos because the models are optimized to fit WebVid-10M. In this work, we explore the training scheme of video models extended from Stable Diffusion and investigate the feasibility of leveraging low-quality videos and synthesized high-quality images to obtain a high-quality video model. We first analyze the connection between the spatial and temporal modules of video models and the distribution shift to low-quality videos. We observe that full training of all modules results in a stronger coupling between spatial and temporal modules than only training temporal modules. Based on this stronger coupling, we shift the distribution to higher quality without motion degradation by finetuning spatial modules with high-quality images, resulting in a generic high-quality video model. Evaluations are conducted to demonstrate the superiority of the proposed method, particularly in picture quality, motion, and concept composition.

VideoCrafter2: Superando las Limitaciones de Datos para Modelos de Difusión de Video de Alta Calidad

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

Resumen

Support