STIV: Generación de Video Condicionada por Texto e Imagen Escalable
STIV: Scalable Text and Image Conditioned Video Generation
December 10, 2024
Autores: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI
Resumen
El campo de la generación de video ha experimentado avances notables, sin embargo, persiste una necesidad apremiante de una receta clara y sistemática que pueda guiar el desarrollo de modelos robustos y escalables. En este trabajo, presentamos un estudio exhaustivo que explora sistemáticamente la interacción de arquitecturas de modelos, recetas de entrenamiento y estrategias de curación de datos, culminando en un método simple y escalable de generación de video condicionado por texto e imagen, denominado STIV. Nuestro marco integra la condición de imagen en un Transformador de Difusión (DiT) a través de la sustitución de fotogramas, al mismo tiempo que incorpora la condición de texto a través de una guía conjunta condicionada por imagen-texto sin clasificador. Este diseño permite que STIV realice tareas tanto de texto a video (T2V) como de texto-imagen a video (TI2V) simultáneamente. Además, STIV puede ser fácilmente ampliado a diversas aplicaciones, como predicción de video, interpolación de fotogramas, generación de múltiples vistas y generación de videos largos, entre otros. Con estudios de ablación exhaustivos en T2I, T2V y TI2V, STIV demuestra un rendimiento sólido, a pesar de su diseño simple. Un modelo de 8.7B con resolución de 512 logra 83.1 en VBench T2V, superando a modelos líderes de código abierto y cerrado como CogVideoX-5B, Pika, Kling y Gen-3. El modelo del mismo tamaño también logra un resultado de vanguardia de 90.1 en la tarea I2V de VBench a 512 de resolución. Al proporcionar una receta transparente y extensible para construir modelos de generación de video de vanguardia, nuestro objetivo es potenciar la investigación futura y acelerar el progreso hacia soluciones de generación de video más versátiles y confiables.
English
The field of video generation has made remarkable advancements, yet there
remains a pressing need for a clear, systematic recipe that can guide the
development of robust and scalable models. In this work, we present a
comprehensive study that systematically explores the interplay of model
architectures, training recipes, and data curation strategies, culminating in a
simple and scalable text-image-conditioned video generation method, named STIV.
Our framework integrates image condition into a Diffusion Transformer (DiT)
through frame replacement, while incorporating text conditioning via a joint
image-text conditional classifier-free guidance. This design enables STIV to
perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks
simultaneously. Additionally, STIV can be easily extended to various
applications, such as video prediction, frame interpolation, multi-view
generation, and long video generation, etc. With comprehensive ablation studies
on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple
design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V,
surpassing both leading open and closed-source models like CogVideoX-5B, Pika,
Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result
of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and
extensible recipe for building cutting-edge video generation models, we aim to
empower future research and accelerate progress toward more versatile and
reliable video generation solutions.Summary
AI-Generated Summary