ChatPaper.aiChatPaper

Une recette pour intensifier la génération texte-vidéo avec des vidéos sans texte

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

December 25, 2023
Auteurs: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI

Résumé

La génération de vidéos à partir de texte basée sur les modèles de diffusion a connu des progrès impressionnants au cours de l'année écoulée, mais elle reste encore en retrait par rapport à la génération d'images à partir de texte. L'une des principales raisons est l'échelle limitée des données publiquement disponibles (par exemple, 10 millions de paires vidéo-texte dans WebVid10M contre 5 milliards de paires image-texte dans LAION), compte tenu du coût élevé de l'étiquetage vidéo. En revanche, il pourrait être bien plus facile de collecter des clips non étiquetés sur des plateformes vidéo comme YouTube. Motivés par cette observation, nous proposons un nouveau cadre de génération de vidéos à partir de texte, appelé TF-T2V, qui peut apprendre directement à partir de vidéos sans texte. L'idée sous-jacente est de séparer le processus de décodage du texte de celui de la modélisation temporelle. Pour ce faire, nous utilisons une branche de contenu et une branche de mouvement, qui sont optimisées conjointement avec des poids partagés. En suivant cette approche, nous étudions l'effet du doublement de l'échelle de l'ensemble d'entraînement (c'est-à-dire WebVid10M sans texte) avec des vidéos sans texte collectées aléatoirement, et nous constatons avec satisfaction une amélioration des performances (FID passant de 9,67 à 8,19 et FVD de 484 à 441), démontrant ainsi l'évolutivité de notre méthode. Nous observons également que notre modèle peut bénéficier d'un gain de performance durable (FID passant de 8,19 à 7,64 et FVD de 441 à 366) après la réintroduction de quelques étiquettes textuelles pour l'entraînement. Enfin, nous validons l'efficacité et la généralisabilité de notre approche à la fois sur la génération native de vidéos à partir de texte et sur les paradigmes de synthèse vidéo compositionnelle. Le code et les modèles seront disponibles publiquement à l'adresse https://tf-t2v.github.io/.
English
Diffusion-based text-to-video generation has witnessed impressive progress in the past year yet still falls behind text-to-image generation. One of the key reasons is the limited scale of publicly available data (e.g., 10M video-text pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost of video captioning. Instead, it could be far easier to collect unlabeled clips from video platforms like YouTube. Motivated by this, we come up with a novel text-to-video generation framework, termed TF-T2V, which can directly learn with text-free videos. The rationale behind is to separate the process of text decoding from that of temporal modeling. To this end, we employ a content branch and a motion branch, which are jointly optimized with weights shared. Following such a pipeline, we study the effect of doubling the scale of training set (i.e., video-only WebVid10M) with some randomly collected text-free videos and are encouraged to observe the performance improvement (FID from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of our approach. We also find that our model could enjoy sustainable performance gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some text labels for training. Finally, we validate the effectiveness and generalizability of our ideology on both native text-to-video generation and compositional video synthesis paradigms. Code and models will be publicly available at https://tf-t2v.github.io/.
PDF151December 15, 2024