STIV: Geração de Vídeo Condicionada por Texto e Imagem Escalável
STIV: Scalable Text and Image Conditioned Video Generation
December 10, 2024
Autores: Zongyu Lin, Wei Liu, Chen Chen, Jiasen Lu, Wenze Hu, Tsu-Jui Fu, Jesse Allardice, Zhengfeng Lai, Liangchen Song, Bowen Zhang, Cha Chen, Yiran Fei, Yifan Jiang, Lezhi Li, Yizhou Sun, Kai-Wei Chang, Yinfei Yang
cs.AI
Resumo
O campo da geração de vídeos fez avanços notáveis, no entanto, há uma necessidade urgente de uma receita clara e sistemática que possa orientar o desenvolvimento de modelos robustos e escaláveis. Neste trabalho, apresentamos um estudo abrangente que explora sistematicamente a interação entre arquiteturas de modelos, receitas de treinamento e estratégias de curadoria de dados, culminando em um método simples e escalável de geração de vídeos condicionados por texto e imagem, chamado STIV. Nosso framework integra a condição de imagem em um Transformer de Difusão (DiT) por meio de substituição de quadros, enquanto incorpora a condição de texto por meio de um guia condicional conjunto imagem-texto sem classificador. Esse design permite que o STIV realize simultaneamente tarefas de texto-para-vídeo (T2V) e texto-imagem-para-vídeo (TI2V). Além disso, o STIV pode ser facilmente estendido para várias aplicações, como previsão de vídeo, interpolação de quadros, geração de múltiplas visualizações e geração de vídeos longos, entre outros. Com estudos abrangentes de ablação em T2I, T2V e TI2V, o STIV demonstra um desempenho sólido, apesar de seu design simples. Um modelo de 8,7B com resolução de 512 atinge 83,1 no VBench T2V, superando tanto modelos líderes de código aberto quanto de código fechado, como CogVideoX-5B, Pika, Kling e Gen-3. O modelo do mesmo tamanho também alcança um resultado de ponta de 90,1 na tarefa VBench I2V com resolução de 512. Ao fornecer uma receita transparente e extensível para a construção de modelos de geração de vídeo de ponta, nosso objetivo é capacitar pesquisas futuras e acelerar o progresso em direção a soluções de geração de vídeo mais versáteis e confiáveis.
English
The field of video generation has made remarkable advancements, yet there
remains a pressing need for a clear, systematic recipe that can guide the
development of robust and scalable models. In this work, we present a
comprehensive study that systematically explores the interplay of model
architectures, training recipes, and data curation strategies, culminating in a
simple and scalable text-image-conditioned video generation method, named STIV.
Our framework integrates image condition into a Diffusion Transformer (DiT)
through frame replacement, while incorporating text conditioning via a joint
image-text conditional classifier-free guidance. This design enables STIV to
perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks
simultaneously. Additionally, STIV can be easily extended to various
applications, such as video prediction, frame interpolation, multi-view
generation, and long video generation, etc. With comprehensive ablation studies
on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple
design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V,
surpassing both leading open and closed-source models like CogVideoX-5B, Pika,
Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result
of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and
extensible recipe for building cutting-edge video generation models, we aim to
empower future research and accelerate progress toward more versatile and
reliable video generation solutions.Summary
AI-Generated Summary