ChatPaper.aiChatPaper

GPT4Motion: 블렌더 기반 GPT 계획을 통한 텍스트-비디오 생성에서의 물리적 동작 스크립팅

GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

November 21, 2023
저자: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen
cs.AI

초록

텍스트-투-비디오 생성 분야의 최근 발전은 확산 모델의 힘을 활용하여 텍스트 프롬프트에 기반한 시각적으로 매력적인 콘텐츠를 만들어내고 있습니다. 그러나 이러한 방법들은 일반적으로 높은 계산 비용을 수반하며, 물리적으로 일관된 동작을 가진 비디오를 생성하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 우리는 GPT4Motion을 제안합니다. 이는 GPT와 같은 대형 언어 모델의 계획 능력, Blender의 물리 시뮬레이션 강점, 그리고 텍스트-투-이미지 확산 모델의 우수한 이미지 생성 능력을 활용하여 비디오 합성의 품질을 향상시키는 학습이 필요 없는 프레임워크입니다. 구체적으로, GPT4Motion은 GPT-4를 사용하여 사용자 텍스트 프롬프트를 기반으로 Blender 스크립트를 생성합니다. 이 스크립트는 Blender의 내장 물리 엔진을 명령하여 프레임 간에 일관된 물리적 동작을 포함하는 기본적인 장면 구성 요소를 만듭니다. 그런 다음 이러한 구성 요소는 Stable Diffusion에 입력되어 텍스트 프롬프트와 일치하는 비디오를 생성합니다. 강체 물체의 낙하 및 충돌, 천의 드레이핑과 흔들림, 액체 흐름을 포함한 세 가지 기본 물리적 동작 시나리오에 대한 실험 결과는 GPT4Motion이 동작 일관성과 개체 일관성을 유지하면서 고품질 비디오를 효율적으로 생성할 수 있음을 보여줍니다. GPT4Motion은 텍스트-투-비디오 연구에 새로운 통찰을 제공하며, 그 품질을 향상시키고 미래 탐구를 위한 지평을 넓힙니다.
English
Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for future explorations.
PDF151December 15, 2024