GPT4Motion: Roteirização de Movimentos Físicos na Geração de Texto para Vídeo via Planejamento GPT Orientado ao Blender
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
November 21, 2023
Autores: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI
Resumo
Os recentes avanços na geração de texto para vídeo têm aproveitado o poder dos modelos de difusão para criar conteúdo visualmente atraente condicionado a prompts de texto. No entanto, esses métodos geralmente enfrentam altos custos computacionais e frequentemente lutam para produzir vídeos com movimentos físicos coerentes. Para enfrentar esses desafios, propomos o GPT4Motion, uma estrutura livre de treinamento que aproveita a capacidade de planejamento de grandes modelos de linguagem, como o GPT, a força de simulação física do Blender e a excelente capacidade de geração de imagens dos modelos de difusão de texto para imagem, a fim de aprimorar a qualidade da síntese de vídeo. Especificamente, o GPT4Motion emprega o GPT-4 para gerar um script do Blender com base em um prompt textual do usuário, o qual comanda o motor de física integrado do Blender para criar componentes fundamentais da cena que encapsulam movimentos físicos coerentes entre os quadros. Em seguida, esses componentes são inseridos no Stable Diffusion para gerar um vídeo alinhado com o prompt textual. Resultados experimentais em três cenários básicos de movimento físico, incluindo queda e colisão de objetos rígidos, drapeado e balanço de tecidos, e fluxo de líquidos, demonstram que o GPT4Motion pode gerar vídeos de alta qualidade de forma eficiente, mantendo a coerência de movimento e a consistência das entidades. O GPT4Motion oferece novas perspectivas na pesquisa de texto para vídeo, aprimorando sua qualidade e ampliando seus horizontes para futuras explorações.
English
Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.