ChatPaper.aiChatPaper

Een Recept voor het Opschalen van Tekst-naar-Video Generatie met Tekstloze Video's

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

December 25, 2023
Auteurs: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI

Samenvatting

Diffusiegebaseerde tekst-naar-video-generatie heeft het afgelopen jaar indrukwekkende vooruitgang geboekt, maar blijft achter bij tekst-naar-beeld-generatie. Een van de belangrijkste redenen hiervoor is de beperkte schaal van publiek beschikbare data (bijv. 10M video-tekstparen in WebVid10M versus 5B beeld-tekstparen in LAION), gezien de hoge kosten van videobeschrijvingen. In plaats daarvan zou het veel eenvoudiger kunnen zijn om ongelabelde clips te verzamelen van videoplatforms zoals YouTube. Gemotiveerd door dit idee, hebben we een nieuw tekst-naar-video-generatieframework ontwikkeld, genaamd TF-T2V, dat direct kan leren met tekstloze video's. De achterliggende gedachte is om het proces van tekstdecodering te scheiden van dat van temporele modellering. Hiertoe gebruiken we een inhoudstak en een bewegingstak, die gezamenlijk worden geoptimaliseerd met gedeelde gewichten. Door deze aanpak te volgen, bestuderen we het effect van het verdubbelen van de schaal van de trainingsset (d.w.z. video-only WebVid10M) met enkele willekeurig verzamelde tekstloze video's en worden we aangemoedigd door de waargenomen prestatieverbetering (FID van 9,67 naar 8,19 en FVD van 484 naar 441), wat de schaalbaarheid van onze aanpak aantoont. We ontdekken ook dat ons model een duurzame prestatieverbetering kan behalen (FID van 8,19 naar 7,64 en FVD van 441 naar 366) na het opnieuw introduceren van enkele tekstlabels voor training. Tot slot valideren we de effectiviteit en generaliseerbaarheid van onze aanpak op zowel native tekst-naar-video-generatie als compositorische videosyntheseparadigma's. Code en modellen zullen publiekelijk beschikbaar zijn op https://tf-t2v.github.io/.
English
Diffusion-based text-to-video generation has witnessed impressive progress in the past year yet still falls behind text-to-image generation. One of the key reasons is the limited scale of publicly available data (e.g., 10M video-text pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost of video captioning. Instead, it could be far easier to collect unlabeled clips from video platforms like YouTube. Motivated by this, we come up with a novel text-to-video generation framework, termed TF-T2V, which can directly learn with text-free videos. The rationale behind is to separate the process of text decoding from that of temporal modeling. To this end, we employ a content branch and a motion branch, which are jointly optimized with weights shared. Following such a pipeline, we study the effect of doubling the scale of training set (i.e., video-only WebVid10M) with some randomly collected text-free videos and are encouraged to observe the performance improvement (FID from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of our approach. We also find that our model could enjoy sustainable performance gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some text labels for training. Finally, we validate the effectiveness and generalizability of our ideology on both native text-to-video generation and compositional video synthesis paradigms. Code and models will be publicly available at https://tf-t2v.github.io/.
PDF151February 8, 2026