ChatPaper.aiChatPaper

STIV: Generación de Video Condicionada por Texto e Imagen Escalable

STIV: Scalable Text and Image Conditioned Video Generation

December 10, 2024
Autores: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI

Resumen

El campo de la generación de video ha experimentado avances notables, sin embargo, persiste una necesidad apremiante de una receta clara y sistemática que pueda guiar el desarrollo de modelos robustos y escalables. En este trabajo, presentamos un estudio exhaustivo que explora sistemáticamente la interacción de arquitecturas de modelos, recetas de entrenamiento y estrategias de curación de datos, culminando en un método simple y escalable de generación de video condicionado por texto e imagen, denominado STIV. Nuestro marco integra la condición de imagen en un Transformador de Difusión (DiT) a través de la sustitución de fotogramas, al mismo tiempo que incorpora la condición de texto a través de una guía conjunta condicionada por imagen-texto sin clasificador. Este diseño permite que STIV realice tareas tanto de texto a video (T2V) como de texto-imagen a video (TI2V) simultáneamente. Además, STIV puede ser fácilmente ampliado a diversas aplicaciones, como predicción de video, interpolación de fotogramas, generación de múltiples vistas y generación de videos largos, entre otros. Con estudios de ablación exhaustivos en T2I, T2V y TI2V, STIV demuestra un rendimiento sólido, a pesar de su diseño simple. Un modelo de 8.7B con resolución de 512 logra 83.1 en VBench T2V, superando a modelos líderes de código abierto y cerrado como CogVideoX-5B, Pika, Kling y Gen-3. El modelo del mismo tamaño también logra un resultado de vanguardia de 90.1 en la tarea I2V de VBench a 512 de resolución. Al proporcionar una receta transparente y extensible para construir modelos de generación de video de vanguardia, nuestro objetivo es potenciar la investigación futura y acelerar el progreso hacia soluciones de generación de video más versátiles y confiables.
English
The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.

Summary

AI-Generated Summary

PDF742December 11, 2024