Esboçando o Futuro (STF): Aplicando Técnicas de Controle Condicional em Modelos de Texto para Vídeo

Resumo

A proliferação de conteúdo em vídeo exige abordagens eficientes e flexíveis baseadas em redes neurais para a geração de novos conteúdos audiovisuais. Neste artigo, propomos uma abordagem inovadora que combina a geração de texto para vídeo zero-shot com o ControlNet para aprimorar a saída desses modelos. Nosso método utiliza múltiplos esboços de quadros como entrada e gera uma saída de vídeo que corresponde ao fluxo desses quadros, construindo sobre a arquitetura Text-to-Video Zero e incorporando o ControlNet para permitir condições de entrada adicionais. Primeiro, interpolamos quadros entre os esboços fornecidos e, em seguida, executamos o Text-to-Video Zero utilizando o vídeo com os novos quadros interpolados como técnica de controle, aproveitando os benefícios tanto da geração de texto para vídeo zero-shot quanto do controle robusto oferecido pelo ControlNet. Experimentos demonstram que nosso método se destaca na produção de conteúdo de vídeo de alta qualidade e notavelmente consistente, que se alinha com maior precisão ao movimento pretendido pelo usuário para o objeto dentro do vídeo. Disponibilizamos um pacote abrangente de recursos, incluindo um vídeo demonstrativo, site do projeto, repositório GitHub de código aberto e um ambiente Colab para playground, visando fomentar pesquisas e aplicações adicionais do método proposto.

English

The proliferation of video content demands efficient and flexible neural network based approaches for generating new video content. In this paper, we propose a novel approach that combines zero-shot text-to-video generation with ControlNet to improve the output of these models. Our method takes multiple sketched frames as input and generates video output that matches the flow of these frames, building upon the Text-to-Video Zero architecture and incorporating ControlNet to enable additional input conditions. By first interpolating frames between the inputted sketches and then running Text-to-Video Zero using the new interpolated frames video as the control technique, we leverage the benefits of both zero-shot text-to-video generation and the robust control provided by ControlNet. Experiments demonstrate that our method excels at producing high-quality and remarkably consistent video content that more accurately aligns with the user's intended motion for the subject within the video. We provide a comprehensive resource package, including a demo video, project website, open-source GitHub repository, and a Colab playground to foster further research and application of our proposed method.

Esboçando o Futuro (STF): Aplicando Técnicas de Controle Condicional em Modelos de Texto para Vídeo

Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

Resumo

Support