STIV: Generación de Video Condicionada por Texto e Imagen EscalableSTIV: Scalable Text and Image Conditioned Video Generation
El campo de la generación de video ha experimentado avances notables, sin embargo, persiste una necesidad apremiante de una receta clara y sistemática que pueda guiar el desarrollo de modelos robustos y escalables. En este trabajo, presentamos un estudio exhaustivo que explora sistemáticamente la interacción de arquitecturas de modelos, recetas de entrenamiento y estrategias de curación de datos, culminando en un método simple y escalable de generación de video condicionado por texto e imagen, denominado STIV. Nuestro marco integra la condición de imagen en un Transformador de Difusión (DiT) a través de la sustitución de fotogramas, al mismo tiempo que incorpora la condición de texto a través de una guía conjunta condicionada por imagen-texto sin clasificador. Este diseño permite que STIV realice tareas tanto de texto a video (T2V) como de texto-imagen a video (TI2V) simultáneamente. Además, STIV puede ser fácilmente ampliado a diversas aplicaciones, como predicción de video, interpolación de fotogramas, generación de múltiples vistas y generación de videos largos, entre otros. Con estudios de ablación exhaustivos en T2I, T2V y TI2V, STIV demuestra un rendimiento sólido, a pesar de su diseño simple. Un modelo de 8.7B con resolución de 512 logra 83.1 en VBench T2V, superando a modelos líderes de código abierto y cerrado como CogVideoX-5B, Pika, Kling y Gen-3. El modelo del mismo tamaño también logra un resultado de vanguardia de 90.1 en la tarea I2V de VBench a 512 de resolución. Al proporcionar una receta transparente y extensible para construir modelos de generación de video de vanguardia, nuestro objetivo es potenciar la investigación futura y acelerar el progreso hacia soluciones de generación de video más versátiles y confiables.