МТИВ: Масштабируемая генерация видео на основе текста и изображений
STIV: Scalable Text and Image Conditioned Video Generation
December 10, 2024
Авторы: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI
Аннотация
Область генерации видео сделала замечательные прорывы, однако остается настоятельная необходимость в четком и систематическом рецепте, который мог бы направлять разработку надежных и масштабируемых моделей. В данной работе мы представляем всестороннее исследование, которое систематически исследует взаимодействие архитектур моделей, рецептов обучения и стратегий курирования данных, что приводит к простому и масштабируемому методу генерации видео с условием текста и изображения, названному STIV. Наша структура интегрирует условие изображения в Диффузионный Трансформер (DiT) через замену кадра, в то время как включает текстовое условие через совместный классификатор-бесплатное руководство по изображению и тексту. Этот дизайн позволяет STIV выполнять одновременно задачи от текста к видео (T2V) и от текста и изображения к видео (TI2V). Кроме того, STIV может легко расширяться до различных приложений, таких как предсказание видео, интерполяция кадров, генерация множества видов и генерация длинных видео и т. д. Проведя всесторонние исследования по абляции на T2I, T2V и TI2V, STIV демонстрирует высокую производительность, несмотря на свой простой дизайн. Модель 8.7B с разрешением 512 достигает 83.1 на VBench T2V, превосходя как ведущие открытые, так и закрытые модели, такие как CogVideoX-5B, Pika, Kling и Gen-3. Та же модель того же размера также достигает передового результата 90.1 на задаче VBench I2V при разрешении 512. Предоставляя прозрачный и расширяемый рецепт для создания передовых моделей генерации видео, мы стремимся усилить будущие исследования и ускорить прогресс к более универсальным и надежным решениям генерации видео.
English
The field of video generation has made remarkable advancements, yet there
remains a pressing need for a clear, systematic recipe that can guide the
development of robust and scalable models. In this work, we present a
comprehensive study that systematically explores the interplay of model
architectures, training recipes, and data curation strategies, culminating in a
simple and scalable text-image-conditioned video generation method, named STIV.
Our framework integrates image condition into a Diffusion Transformer (DiT)
through frame replacement, while incorporating text conditioning via a joint
image-text conditional classifier-free guidance. This design enables STIV to
perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks
simultaneously. Additionally, STIV can be easily extended to various
applications, such as video prediction, frame interpolation, multi-view
generation, and long video generation, etc. With comprehensive ablation studies
on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple
design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V,
surpassing both leading open and closed-source models like CogVideoX-5B, Pika,
Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result
of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and
extensible recipe for building cutting-edge video generation models, we aim to
empower future research and accelerate progress toward more versatile and
reliable video generation solutions.Summary
AI-Generated Summary