Рецепт масштабирования генерации видео из текста с использованием видеороликов без текста
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos
December 25, 2023
Авторы: Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
cs.AI
Аннотация
Генерация видео на основе текста с использованием диффузионных моделей продемонстрировала впечатляющий прогресс за последний год, но всё ещё отстаёт от генерации изображений на основе текста. Одной из ключевых причин является ограниченный масштаб общедоступных данных (например, 10 миллионов пар видео-текст в WebVid10M против 5 миллиардов пар изображение-текст в LAION), учитывая высокую стоимость создания описаний для видео. Вместо этого гораздо проще собирать немаркированные клипы с видеоплатформ, таких как YouTube. Вдохновленные этим, мы разработали новую структуру для генерации видео на основе текста, названную TF-T2V, которая может обучаться непосредственно на видео без текста. Основная идея заключается в разделении процесса декодирования текста и моделирования временной динамики. Для этого мы используем две ветви: ветвь контента и ветвь движения, которые совместно оптимизируются с общими весами. Следуя такому подходу, мы изучили эффект удвоения масштаба обучающего набора (например, видео-only WebVid10M) с добавлением случайно собранных видео без текста и обнаружили улучшение производительности (FID снизился с 9.67 до 8.19, а FVD — с 484 до 441), что демонстрирует масштабируемость нашего метода. Мы также обнаружили, что наша модель может получить устойчивое улучшение производительности (FID снизился с 8.19 до 7.64, а FVD — с 441 до 366) после повторного введения некоторых текстовых меток для обучения. Наконец, мы подтвердили эффективность и универсальность нашей идеологии как в задачах генерации видео на основе текста, так и в парадигмах композиционного синтеза видео. Код и модели будут общедоступны по адресу https://tf-t2v.github.io/.
English
Diffusion-based text-to-video generation has witnessed impressive progress in
the past year yet still falls behind text-to-image generation. One of the key
reasons is the limited scale of publicly available data (e.g., 10M video-text
pairs in WebVid10M vs. 5B image-text pairs in LAION), considering the high cost
of video captioning. Instead, it could be far easier to collect unlabeled clips
from video platforms like YouTube. Motivated by this, we come up with a novel
text-to-video generation framework, termed TF-T2V, which can directly learn
with text-free videos. The rationale behind is to separate the process of text
decoding from that of temporal modeling. To this end, we employ a content
branch and a motion branch, which are jointly optimized with weights shared.
Following such a pipeline, we study the effect of doubling the scale of
training set (i.e., video-only WebVid10M) with some randomly collected
text-free videos and are encouraged to observe the performance improvement (FID
from 9.67 to 8.19 and FVD from 484 to 441), demonstrating the scalability of
our approach. We also find that our model could enjoy sustainable performance
gain (FID from 8.19 to 7.64 and FVD from 441 to 366) after reintroducing some
text labels for training. Finally, we validate the effectiveness and
generalizability of our ideology on both native text-to-video generation and
compositional video synthesis paradigms. Code and models will be publicly
available at https://tf-t2v.github.io/.