Uma Receita para Escalonar a Geração de Texto para Vídeo com Vídeos sem Texto
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
December 25, 2023
Autores: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI
Resumo
A geração de vídeo baseada em difusão a partir de texto tem apresentado progressos impressionantes no último ano, mas ainda fica atrás da geração de imagem a partir de texto. Uma das principais razões é a escala limitada de dados publicamente disponíveis (por exemplo, 10 milhões de pares vídeo-texto no WebVid10M versus 5 bilhões de pares imagem-texto no LAION), considerando o alto custo da legendagem de vídeos. Em vez disso, pode ser muito mais fácil coletar clipes sem rótulos de plataformas de vídeo como o YouTube. Motivados por isso, propomos uma nova estrutura de geração de vídeo a partir de texto, denominada TF-T2V, que pode aprender diretamente com vídeos sem texto. A lógica por trás disso é separar o processo de decodificação de texto da modelagem temporal. Para isso, empregamos um ramo de conteúdo e um ramo de movimento, que são otimizados conjuntamente com pesos compartilhados. Seguindo esse pipeline, estudamos o efeito de dobrar a escala do conjunto de treinamento (ou seja, o WebVid10M apenas com vídeos) com alguns vídeos sem texto coletados aleatoriamente e ficamos encorajados ao observar a melhoria de desempenho (FID de 9,67 para 8,19 e FVD de 484 para 441), demonstrando a escalabilidade da nossa abordagem. Também descobrimos que nosso modelo pode obter ganhos sustentáveis de desempenho (FID de 8,19 para 7,64 e FVD de 441 para 366) após reintroduzir alguns rótulos de texto para treinamento. Por fim, validamos a eficácia e a generalizabilidade da nossa ideologia tanto na geração nativa de vídeo a partir de texto quanto nos paradigmas de síntese de vídeo composicional. Código e modelos estarão publicamente disponíveis em https://tf-t2v.github.io/.
English
Diffusion-based text-to-video generation has witnessed impressive progress in
the past year yet still falls behind text-to-image generation. One of the key
reasons is the limited scale of publicly available data (e.g., 10M video-text
pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost
of video captioning. Instead, it could be far easier to collect unlabeled clips
from video platforms like YouTube. Motivated by this, we come up with a novel
text-to-video generation framework, termed TF-T2V, which can directly learn
with text-free videos. The rationale behind is to separate the process of text
decoding from that of temporal modeling. To this end, we employ a content
branch and a motion branch, which are jointly optimized with weights shared.
Following such a pipeline, we study the effect of doubling the scale of
training set (i.e., video-only WebVid10M) with some randomly collected
text-free videos and are encouraged to observe the performance improvement (FID
from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of
our approach. We also find that our model could enjoy sustainable performance
gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some
text labels for training. Finally, we validate the effectiveness and
generalizability of our ideology on both native text-to-video generation and
compositional video synthesis paradigms. Code and models will be publicly
available at https://tf-t2v.github.io/.