ChatPaper.aiChatPaper

GPT4Motion: Guionización de Movimientos Físicos en la Generación de Texto a Video mediante Planificación GPT Orientada a Blender

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

November 21, 2023
Autores: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI

Resumen

Los recientes avances en la generación de texto a video han aprovechado el poder de los modelos de difusión para crear contenido visualmente atractivo condicionado por indicaciones de texto. Sin embargo, estos métodos suelen enfrentar altos costos computacionales y a menudo tienen dificultades para producir videos con movimientos físicos coherentes. Para abordar estos problemas, proponemos GPT4Motion, un marco de trabajo que no requiere entrenamiento y que aprovecha la capacidad de planificación de modelos de lenguaje grandes como GPT, la fortaleza en simulación física de Blender y la excelente capacidad de generación de imágenes de los modelos de difusión de texto a imagen para mejorar la calidad de la síntesis de video. Específicamente, GPT4Motion emplea GPT-4 para generar un script de Blender basado en una indicación textual del usuario, el cual controla el motor de física integrado de Blender para crear componentes fundamentales de la escena que encapsulan movimientos físicos coherentes a lo largo de los fotogramas. Luego, estos componentes se introducen en Stable Diffusion para generar un video alineado con la indicación textual. Los resultados experimentales en tres escenarios básicos de movimiento físico, que incluyen la caída y colisión de objetos rígidos, el drapeado y balanceo de telas, y el flujo de líquidos, demuestran que GPT4Motion puede generar videos de alta calidad de manera eficiente, manteniendo la coherencia del movimiento y la consistencia de las entidades. GPT4Motion ofrece nuevas perspectivas en la investigación de texto a video, mejorando su calidad y ampliando su horizonte para futuras exploraciones.
English
Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.
PDF151December 15, 2024