GPT4Motion: Skriptierung physischer Bewegungen in der Text-zu-Video-Generierung durch Blender-orientierte GPT-Planung
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
November 21, 2023
Autoren: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Text-zu-Video-Generierung haben die Leistungsfähigkeit von Diffusionsmodellen genutzt, um visuell ansprechende Inhalte auf der Grundlage von Textanweisungen zu erstellen. Allerdings stoßen diese Ansätze häufig auf hohe Rechenkosten und haben Schwierigkeiten, Videos mit kohärenten physikalischen Bewegungen zu erzeugen. Um diese Probleme zu lösen, schlagen wir GPT4Motion vor, ein trainingsfreies Framework, das die Planungsfähigkeit großer Sprachmodelle wie GPT, die Stärke der physikalischen Simulation von Blender und die hervorragende Bildgenerierungsfähigkeit von Text-zu-Bild-Diffusionsmodellen nutzt, um die Qualität der Videosynthese zu verbessern. Konkret verwendet GPT4Motion GPT-4, um ein Blender-Skript basierend auf einer Benutzertextanweisung zu generieren, das die integrierte Physik-Engine von Blender anweist, grundlegende Szenenkomponenten zu erstellen, die kohärente physikalische Bewegungen über die Frames hinweg erfassen. Diese Komponenten werden dann in Stable Diffusion eingegeben, um ein Video zu generieren, das mit der Textanweisung übereinstimmt. Experimentelle Ergebnisse in drei grundlegenden physikalischen Bewegungsszenarien, darunter das Fallen und Kollidieren starrer Objekte, das Drapieren und Schwingen von Stoffen sowie das Fließen von Flüssigkeiten, zeigen, dass GPT4Motion hochwertige Videos effizient erzeugen kann, wobei Bewegungskohärenz und Entitätskonsistenz erhalten bleiben. GPT4Motion bietet neue Einblicke in die Text-zu-Video-Forschung, verbessert deren Qualität und erweitert die Perspektiven für zukünftige Untersuchungen.
English
Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.