GPT4Motion : Scriptage de mouvements physiques dans la génération vidéo à partir de texte via une planification GPT orientée Blender
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
November 21, 2023
Auteurs: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI
Résumé
Les récentes avancées dans la génération de texte-à-vidéo ont exploité la puissance des modèles de diffusion pour créer un contenu visuellement captivant conditionné par des prompts textuels. Cependant, ces approches se heurtent généralement à des coûts de calcul élevés et peinent souvent à produire des vidéos avec des mouvements physiques cohérents. Pour résoudre ces problèmes, nous proposons GPT4Motion, un cadre d'apprentissage sans entraînement qui exploite la capacité de planification des grands modèles de langage tels que GPT, la puissance de simulation physique de Blender, et l'excellente capacité de génération d'images des modèles de diffusion texte-à-image pour améliorer la qualité de la synthèse vidéo. Plus précisément, GPT4Motion utilise GPT-4 pour générer un script Blender basé sur un prompt textuel utilisateur, qui commande le moteur physique intégré de Blender pour créer des composants de scène fondamentaux encapsulant des mouvements physiques cohérents entre les images. Ces composants sont ensuite introduits dans Stable Diffusion pour générer une vidéo alignée avec le prompt textuel. Les résultats expérimentaux sur trois scénarios de base de mouvement physique, incluant la chute et la collision d'objets rigides, le drapage et le balancement de tissus, et l'écoulement de liquides, démontrent que GPT4Motion peut générer des vidéos de haute qualité tout en maintenant la cohérence des mouvements et la consistance des entités. GPT4Motion offre de nouvelles perspectives dans la recherche texte-à-vidéo, améliorant sa qualité et élargissant son horizon pour les explorations futures.
English
Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.