LLM 디렉터를 활용한 구성적 3D 인식 비디오 생성
Compositional 3D-aware Video Generation with LLM Director
August 31, 2024
저자: Hanxin Zhu, Tianyu He, Anni Tang, Junliang Guo, Zhibo Chen, Jiang Bian
cs.AI
초록
강력한 생성 모델과 대규모 인터넷 데이터의 활용을 통해 텍스트에서 비디오를 생성하는 데 상당한 진전이 이루어졌습니다. 그러나 생성된 비디오 내에서 특정 캐릭터의 동작과 외관, 시점의 이동과 같은 개별 개념을 정밀하게 제어하는 데 상당한 어려움이 남아 있습니다. 본 연구에서는 각 개념을 3D 표현으로 별도로 생성한 후 Large Language Models (LLM) 및 2D 확산 모델의 사전을 활용하여 이를 구성하는 새로운 패러다임을 제안합니다. 구체적으로, 입력 텍스트 프롬프트를 받아들이는 우리의 방법은 세 단계로 구성됩니다: 1) 우리는 복잡한 쿼리를 여러 하위 프롬프트로 분해하여 비디오 내의 개별 개념을 나타내는 것(예: 장면, 객체, 동작)을 지시하는 데 LLM을 사용합니다. 그런 다음 LLM을 사용하여 해당하는 3D 표현을 얻기 위해 사전 훈련된 전문가 모델을 호출합니다. 2) 이러한 표현을 구성하기 위해 우리는 다중 모달 LLM에게 객체의 궤적의 규모와 좌표에 대한 대략적인 안내를 제공하도록 요청합니다. 3) 생성된 프레임이 자연 이미지 분포에 부합하도록 만들기 위해 우리는 2D 확산 사전을 활용하고 Score Distillation Sampling을 사용하여 구성을 정제합니다. 방대한 실험을 통해 우리의 방법이 다양한 동작과 각 개념에 대한 유연한 제어를 통해 텍스트로부터 고품질 비디오를 생성할 수 있음을 입증했습니다. 프로젝트 페이지: https://aka.ms/c3v.
English
Significant progress has been made in text-to-video generation through the
use of powerful generative models and large-scale internet data. However,
substantial challenges remain in precisely controlling individual concepts
within the generated video, such as the motion and appearance of specific
characters and the movement of viewpoints. In this work, we propose a novel
paradigm that generates each concept in 3D representation separately and then
composes them with priors from Large Language Models (LLM) and 2D diffusion
models. Specifically, given an input textual prompt, our scheme consists of
three stages: 1) We leverage LLM as the director to first decompose the complex
query into several sub-prompts that indicate individual concepts within the
video~(e.g., scene, objects, motions), then we let LLM to invoke
pre-trained expert models to obtain corresponding 3D representations of
concepts. 2) To compose these representations, we prompt multi-modal LLM to
produce coarse guidance on the scales and coordinates of trajectories for the
objects. 3) To make the generated frames adhere to natural image distribution,
we further leverage 2D diffusion priors and use Score Distillation Sampling to
refine the composition. Extensive experiments demonstrate that our method can
generate high-fidelity videos from text with diverse motion and flexible
control over each concept. Project page: https://aka.ms/c3v.