GPT4Motion:Blender指向のGPTプランニングによるテキストからビデオ生成における物理的モーションのスクリプティング
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
November 21, 2023
著者: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI
要旨
近年のテキストからビデオ生成の進展は、拡散モデルの力を活用してテキストプロンプトに基づく視覚的に魅力的なコンテンツを作成することを可能にしました。しかし、これらの手法は通常高い計算コストを伴い、一貫した物理的動きを持つビデオを生成するのに苦労することが多いです。これらの課題に対処するため、我々はGPT4Motionを提案します。これは、GPTのような大規模言語モデルの計画能力、Blenderの物理シミュレーションの強み、およびテキストから画像生成の優れた能力を活用して、ビデオ合成の品質を向上させるトレーニング不要のフレームワークです。具体的には、GPT4MotionはGPT-4を使用してユーザーのテキストプロンプトに基づくBlenderスクリプトを生成し、Blenderの組み込み物理エンジンを駆使してフレーム間で一貫した物理的動きを包含する基本的なシーンコンポーネントを作成します。その後、これらのコンポーネントをStable Diffusionに入力して、テキストプロンプトに沿ったビデオを生成します。剛体の落下と衝突、布のドレープと揺れ、液体の流れといった3つの基本的な物理的動きのシナリオでの実験結果は、GPT4Motionが動きの一貫性とエンティティの整合性を維持しながら効率的に高品質なビデオを生成できることを示しています。GPT4Motionは、テキストからビデオ研究に新たな洞察を提供し、その品質を向上させ、将来の探求の視野を広げます。
English
Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.