STIV: Geração de Vídeo Condicionada por Texto e Imagem EscalávelSTIV: Scalable Text and Image Conditioned Video Generation
O campo da geração de vídeos fez avanços notáveis, no entanto, há uma necessidade urgente de uma receita clara e sistemática que possa orientar o desenvolvimento de modelos robustos e escaláveis. Neste trabalho, apresentamos um estudo abrangente que explora sistematicamente a interação entre arquiteturas de modelos, receitas de treinamento e estratégias de curadoria de dados, culminando em um método simples e escalável de geração de vídeos condicionados por texto e imagem, chamado STIV. Nosso framework integra a condição de imagem em um Transformer de Difusão (DiT) por meio de substituição de quadros, enquanto incorpora a condição de texto por meio de um guia condicional conjunto imagem-texto sem classificador. Esse design permite que o STIV realize simultaneamente tarefas de texto-para-vídeo (T2V) e texto-imagem-para-vídeo (TI2V). Além disso, o STIV pode ser facilmente estendido para várias aplicações, como previsão de vídeo, interpolação de quadros, geração de múltiplas visualizações e geração de vídeos longos, entre outros. Com estudos abrangentes de ablação em T2I, T2V e TI2V, o STIV demonstra um desempenho sólido, apesar de seu design simples. Um modelo de 8,7B com resolução de 512 atinge 83,1 no VBench T2V, superando tanto modelos líderes de código aberto quanto de código fechado, como CogVideoX-5B, Pika, Kling e Gen-3. O modelo do mesmo tamanho também alcança um resultado de ponta de 90,1 na tarefa VBench I2V com resolução de 512. Ao fornecer uma receita transparente e extensível para a construção de modelos de geração de vídeo de ponta, nosso objetivo é capacitar pesquisas futuras e acelerar o progresso em direção a soluções de geração de vídeo mais versáteis e confiáveis.