ChatPaper.aiChatPaper

La Búsqueda de Priores Mejora la Síntesis de Texto a Video

Searching Priors Makes Text-to-Video Synthesis Better

June 5, 2024
Autores: Haoran Cheng, Liang Peng, Linxuan Xia, Yuepeng Hu, Hengjia Li, Qinglin Lu, Xiaofei He, Boxi Wu
cs.AI

Resumen

Los avances significativos en los modelos de difusión de video han impulsado considerablemente el campo de la síntesis de texto a video (T2V). Sin embargo, los modelos existentes de síntesis T2V tienen dificultades para generar dinámicas de movimiento complejas con precisión, lo que reduce el realismo de los videos. Una posible solución sería recopilar grandes cantidades de datos y entrenar el modelo con ellos, pero esto resultaría extremadamente costoso. Para mitigar este problema, en este artículo, reformulamos el proceso típico de generación T2V como una canalización de generación basada en búsqueda. En lugar de escalar el entrenamiento del modelo, utilizamos videos existentes como base de datos de prioridades de movimiento. Específicamente, dividimos el proceso de generación T2V en dos pasos: (i) Para una entrada de texto dada, buscamos en conjuntos de datos de texto-video existentes para encontrar videos cuyas etiquetas de texto coincidan estrechamente con los movimientos del texto. Proponemos un algoritmo de búsqueda personalizado que enfatiza las características del movimiento de los objetos. (ii) Los videos recuperados se procesan y destilan en prioridades de movimiento para ajustar un modelo base T2V preentrenado, seguido de la generación de los videos deseados utilizando la entrada de texto. Al utilizar las prioridades obtenidas de los videos buscados, mejoramos el realismo del movimiento de los videos generados. Todas las operaciones pueden realizarse en una sola GPU NVIDIA RTX 4090. Validamos nuestro método frente a los modelos T2V más avanzados utilizando diversas entradas de texto. El código será público.
English
Significant advancements in video diffusion models have brought substantial progress to the field of text-to-video (T2V) synthesis. However, existing T2V synthesis model struggle to accurately generate complex motion dynamics, leading to a reduction in video realism. One possible solution is to collect massive data and train the model on it, but this would be extremely expensive. To alleviate this problem, in this paper, we reformulate the typical T2V generation process as a search-based generation pipeline. Instead of scaling up the model training, we employ existing videos as the motion prior database. Specifically, we divide T2V generation process into two steps: (i) For a given prompt input, we search existing text-video datasets to find videos with text labels that closely match the prompt motions. We propose a tailored search algorithm that emphasizes object motion features. (ii) Retrieved videos are processed and distilled into motion priors to fine-tune a pre-trained base T2V model, followed by generating desired videos using input prompt. By utilizing the priors gleaned from the searched videos, we enhance the realism of the generated videos' motion. All operations can be finished on a single NVIDIA RTX 4090 GPU. We validate our method against state-of-the-art T2V models across diverse prompt inputs. The code will be public.

Summary

AI-Generated Summary

PDF142December 12, 2024