ChatPaper.aiChatPaper

Una receta para escalar la generación de texto a video con videos sin texto

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

December 25, 2023
Autores: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI

Resumen

La generación de texto a vídeo basada en difusión ha experimentado un progreso impresionante en el último año, pero aún se encuentra por detrás de la generación de texto a imagen. Una de las razones clave es la escala limitada de datos disponibles públicamente (por ejemplo, 10M pares de vídeo-texto en WebVid10M frente a 5B pares de imagen-texto en LAION), considerando el alto costo de la descripción de vídeos. En cambio, podría ser mucho más fácil recopilar clips sin etiquetar de plataformas de vídeo como YouTube. Motivados por esto, proponemos un nuevo marco de generación de texto a vídeo, denominado TF-T2V, que puede aprender directamente con vídeos sin texto. La lógica subyacente es separar el proceso de decodificación de texto del modelado temporal. Para ello, empleamos una rama de contenido y una rama de movimiento, que se optimizan conjuntamente con pesos compartidos. Siguiendo este enfoque, estudiamos el efecto de duplicar la escala del conjunto de entrenamiento (es decir, WebVid10M solo con vídeos) con algunos vídeos sin texto recopilados aleatoriamente, y nos alienta observar la mejora en el rendimiento (FID de 9.67 a 8.19 y FVD de 484 a 441), demostrando la escalabilidad de nuestro enfoque. También encontramos que nuestro modelo podría disfrutar de una ganancia sostenible en el rendimiento (FID de 8.19 a 7.64 y FVD de 441 a 366) después de reintroducir algunas etiquetas de texto para el entrenamiento. Finalmente, validamos la efectividad y generalizabilidad de nuestra ideología tanto en la generación nativa de texto a vídeo como en los paradigmas de síntesis de vídeo composicional. El código y los modelos estarán disponibles públicamente en https://tf-t2v.github.io/.
English
Diffusion-based text-to-video generation has witnessed impressive progress in the past year yet still falls behind text-to-image generation. One of the key reasons is the limited scale of publicly available data (e.g., 10M video-text pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost of video captioning. Instead, it could be far easier to collect unlabeled clips from video platforms like YouTube. Motivated by this, we come up with a novel text-to-video generation framework, termed TF-T2V, which can directly learn with text-free videos. The rationale behind is to separate the process of text decoding from that of temporal modeling. To this end, we employ a content branch and a motion branch, which are jointly optimized with weights shared. Following such a pipeline, we study the effect of doubling the scale of training set (i.e., video-only WebVid10M) with some randomly collected text-free videos and are encouraged to observe the performance improvement (FID from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of our approach. We also find that our model could enjoy sustainable performance gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some text labels for training. Finally, we validate the effectiveness and generalizability of our ideology on both native text-to-video generation and compositional video synthesis paradigms. Code and models will be publicly available at https://tf-t2v.github.io/.
PDF151December 15, 2024