ChatPaper.aiChatPaper

GPT4Motion: Scripten van Fysieke Bewegingen in Tekst-naar-Video Generatie via Blender-Gerichte GPT Planning

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

November 21, 2023
Auteurs: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI

Samenvatting

Recente vooruitgang in tekst-naar-video-generatie heeft de kracht van diffusiemodellen benut om visueel aantrekkelijke inhoud te creëren die is afgestemd op tekstprompts. Deze methoden kampen echter vaak met hoge rekenkosten en hebben moeite om video’s met samenhangende fysieke bewegingen te produceren. Om deze problemen aan te pakken, stellen we GPT4Motion voor, een trainingsvrij raamwerk dat gebruikmaakt van de planningscapaciteit van grote taalmodelen zoals GPT, de fysieke simulatiekracht van Blender en de uitstekende beeldgeneratiecapaciteit van tekst-naar-beeld-diffusiemodellen om de kwaliteit van videosynthese te verbeteren. Specifiek gebruikt GPT4Motion GPT-4 om een Blender-script te genereren op basis van een gebruikersprompt, dat de ingebouwde fysica-engine van Blender aanstuurt om fundamentele scènecomponenten te creëren die samenhangende fysieke bewegingen over frames vastleggen. Vervolgens worden deze componenten ingevoerd in Stable Diffusion om een video te genereren die aansluit bij de tekstprompt. Experimentele resultaten op drie basisscenario’s van fysieke beweging, waaronder het laten vallen en botsen van rigide objecten, het draperen en zwaaien van stof, en vloeistofstroming, tonen aan dat GPT4Motion efficiënt hoogwaardige video’s kan genereren waarbij bewegingen samenhangend blijven en entiteiten consistent zijn. GPT4Motion biedt nieuwe inzichten in tekst-naar-video-onderzoek, verbetert de kwaliteit ervan en verbreedt de horizon voor toekomstige verkenningen.
English
Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.
PDF141February 8, 2026