ChatPaper.aiChatPaper

テキストフリービデオを用いたテキストからビデオ生成のスケールアップ手法

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

December 25, 2023
著者: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI

要旨

拡散モデルに基づくテキストから動画生成は、過去1年間で目覚ましい進歩を遂げたものの、テキストから画像生成にはまだ及ばない状況です。その主な理由の1つは、動画キャプション作成のコストの高さから、公開されているデータセットの規模が限られていることです(例:WebVid10Mの1000万の動画-テキストペア vs LAIONの50億の画像-テキストペア)。一方で、YouTubeのような動画プラットフォームからラベルなしのクリップを収集する方がはるかに容易です。この点に着想を得て、私たちはテキストなしの動画を直接学習できる新しいテキストから動画生成フレームワーク「TF-T2V」を提案します。その基本原理は、テキストデコーディングのプロセスと時間的モデリングのプロセスを分離することです。この目的のために、コンテンツブランチとモーションブランチを採用し、重みを共有しながら共同で最適化します。このパイプラインに従い、トレーニングセットの規模(テキストなしのWebVid10M)をランダムに収集したテキストなしの動画で倍増させた場合の効果を調査し、パフォーマンスの向上(FIDが9.67から8.19、FVDが484から441)を確認し、本アプローチのスケーラビリティを実証しました。また、トレーニングにいくつかのテキストラベルを再導入した後、持続的なパフォーマンス向上(FIDが8.19から7.64、FVDが441から366)が得られることも発見しました。最後に、ネイティブなテキストから動画生成と合成的動画合成の両方のパラダイムにおいて、本アイデオロギーの有効性と一般化可能性を検証しました。コードとモデルはhttps://tf-t2v.github.io/で公開予定です。
English
Diffusion-based text-to-video generation has witnessed impressive progress in the past year yet still falls behind text-to-image generation. One of the key reasons is the limited scale of publicly available data (e.g., 10M video-text pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost of video captioning. Instead, it could be far easier to collect unlabeled clips from video platforms like YouTube. Motivated by this, we come up with a novel text-to-video generation framework, termed TF-T2V, which can directly learn with text-free videos. The rationale behind is to separate the process of text decoding from that of temporal modeling. To this end, we employ a content branch and a motion branch, which are jointly optimized with weights shared. Following such a pipeline, we study the effect of doubling the scale of training set (i.e., video-only WebVid10M) with some randomly collected text-free videos and are encouraged to observe the performance improvement (FID from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of our approach. We also find that our model could enjoy sustainable performance gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some text labels for training. Finally, we validate the effectiveness and generalizability of our ideology on both native text-to-video generation and compositional video synthesis paradigms. Code and models will be publicly available at https://tf-t2v.github.io/.
PDF151December 15, 2024