Esquisser le futur (STF) : Application de techniques de contrôle conditionnel aux modèles de texte-à-vidéo
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models
May 10, 2023
Auteurs: Rohan Dhesikan, Vignesh Rajmohan
cs.AI
Résumé
La prolifération de contenus vidéo exige des approches basées sur des réseaux neuronaux efficaces et flexibles pour générer de nouveaux contenus vidéo. Dans cet article, nous proposons une approche novatrice qui combine la génération de vidéos à partir de texte en mode zéro-shot avec ControlNet pour améliorer les résultats de ces modèles. Notre méthode prend en entrée plusieurs images esquissées et génère une vidéo qui correspond au flux de ces images, en s'appuyant sur l'architecture Text-to-Video Zero et en intégrant ControlNet pour permettre des conditions d'entrée supplémentaires. En interpolant d'abord des images entre les esquisses fournies, puis en exécutant Text-to-Video Zero en utilisant la vidéo des nouvelles images interpolées comme technique de contrôle, nous tirons parti des avantages de la génération de vidéos à partir de texte en mode zéro-shot et du contrôle robuste offert par ControlNet. Les expériences montrent que notre méthode excelle dans la production de contenus vidéo de haute qualité et remarquablement cohérents, qui s'alignent plus précisément sur le mouvement souhaité par l'utilisateur pour le sujet de la vidéo. Nous fournissons un ensemble complet de ressources, incluant une vidéo de démonstration, un site web du projet, un dépôt GitHub open-source et un espace de jeu Colab, pour encourager la recherche et l'application de notre méthode proposée.
English
The proliferation of video content demands efficient and flexible neural
network based approaches for generating new video content. In this paper, we
propose a novel approach that combines zero-shot text-to-video generation with
ControlNet to improve the output of these models. Our method takes multiple
sketched frames as input and generates video output that matches the flow of
these frames, building upon the Text-to-Video Zero architecture and
incorporating ControlNet to enable additional input conditions. By first
interpolating frames between the inputted sketches and then running
Text-to-Video Zero using the new interpolated frames video as the control
technique, we leverage the benefits of both zero-shot text-to-video generation
and the robust control provided by ControlNet. Experiments demonstrate that our
method excels at producing high-quality and remarkably consistent video content
that more accurately aligns with the user's intended motion for the subject
within the video. We provide a comprehensive resource package, including a demo
video, project website, open-source GitHub repository, and a Colab playground
to foster further research and application of our proposed method.