VideoCrafter2: Superando las Limitaciones de Datos para Modelos de Difusión de Video de Alta Calidad
VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models
January 17, 2024
Autores: Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
cs.AI
Resumen
La generación de texto a video tiene como objetivo producir un video basado en un texto descriptivo dado. Recientemente, varios modelos comerciales de video han sido capaces de generar videos plausibles con ruido mínimo, detalles excelentes y puntuaciones estéticas altas. Sin embargo, estos modelos dependen de videos a gran escala, bien filtrados y de alta calidad que no están accesibles para la comunidad. Muchos trabajos de investigación existentes, que entrenan modelos utilizando el conjunto de datos de baja calidad WebVid-10M, tienen dificultades para generar videos de alta calidad porque los modelos están optimizados para ajustarse a WebVid-10M. En este trabajo, exploramos el esquema de entrenamiento de modelos de video extendidos a partir de Stable Diffusion e investigamos la viabilidad de aprovechar videos de baja calidad e imágenes sintetizadas de alta calidad para obtener un modelo de video de alta calidad. Primero analizamos la conexión entre los módulos espaciales y temporales de los modelos de video y el cambio de distribución hacia videos de baja calidad. Observamos que el entrenamiento completo de todos los módulos resulta en un acoplamiento más fuerte entre los módulos espaciales y temporales que solo entrenar los módulos temporales. Basándonos en este acoplamiento más fuerte, cambiamos la distribución hacia una mayor calidad sin degradación del movimiento mediante el ajuste fino de los módulos espaciales con imágenes de alta calidad, lo que resulta en un modelo de video genérico de alta calidad. Se realizan evaluaciones para demostrar la superioridad del método propuesto, particularmente en calidad de imagen, movimiento y composición de conceptos.
English
Text-to-video generation aims to produce a video based on a given prompt.
Recently, several commercial video models have been able to generate plausible
videos with minimal noise, excellent details, and high aesthetic scores.
However, these models rely on large-scale, well-filtered, high-quality videos
that are not accessible to the community. Many existing research works, which
train models using the low-quality WebVid-10M dataset, struggle to generate
high-quality videos because the models are optimized to fit WebVid-10M. In this
work, we explore the training scheme of video models extended from Stable
Diffusion and investigate the feasibility of leveraging low-quality videos and
synthesized high-quality images to obtain a high-quality video model. We first
analyze the connection between the spatial and temporal modules of video models
and the distribution shift to low-quality videos. We observe that full training
of all modules results in a stronger coupling between spatial and temporal
modules than only training temporal modules. Based on this stronger coupling,
we shift the distribution to higher quality without motion degradation by
finetuning spatial modules with high-quality images, resulting in a generic
high-quality video model. Evaluations are conducted to demonstrate the
superiority of the proposed method, particularly in picture quality, motion,
and concept composition.