GPT4Motion: Создание физических движений в генерации видео из текста через GPT-планирование, ориентированное на Blender
GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
November 21, 2023
Авторы: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI
Аннотация
Последние достижения в области генерации видео из текста позволили использовать возможности диффузионных моделей для создания визуально привлекательного контента на основе текстовых запросов. Однако такие подходы обычно сталкиваются с высокими вычислительными затратами и часто испытывают трудности с созданием видео, демонстрирующих согласованные физические движения. Для решения этих проблем мы предлагаем GPT4Motion — бесплатный для обучения фреймворк, который использует планирующие возможности крупных языковых моделей, таких как GPT, мощь физического моделирования Blender и превосходные способности генерации изображений текстово-диффузионных моделей для повышения качества синтеза видео. В частности, GPT4Motion задействует GPT-4 для генерации скрипта Blender на основе текстового запроса пользователя, который управляет встроенным физическим движком Blender для создания базовых компонентов сцены, включающих согласованные физические движения между кадрами. Затем эти компоненты передаются в Stable Diffusion для генерации видео, соответствующего текстовому запросу. Экспериментальные результаты на трех базовых сценариях физических движений, включая падение и столкновение твердых объектов, драпировку и колебание ткани, а также течение жидкости, демонстрируют, что GPT4Motion способен эффективно генерировать высококачественные видео с сохранением согласованности движений и целостности объектов. GPT4Motion предлагает новые перспективы в исследованиях генерации видео из текста, повышая их качество и расширяя горизонты для будущих исследований.
English
Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.