생성적 렌더링: 2D 확산 모델을 활용한 제어 가능한 4D 가이드 비디오 생성
Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models
December 3, 2023
저자: Shengqu Cai, Duygu Ceylan, Matheus Gadelha, Chun-Hao Paul Huang, Tuanfeng Yang Wang, Gordon Wetzstein
cs.AI
초록
기존의 3D 콘텐츠 제작 도구는 사용자에게 장면의 기하학적 구조, 외관, 움직임, 카메라 경로 등을 직접 제어할 수 있는 능력을 제공함으로써 그들의 상상력을 현실로 구현할 수 있게 합니다. 그러나 컴퓨터 생성 비디오를 만드는 것은 지루한 수작업 과정이며, 이는 최근 등장한 텍스트-투-비디오 확산 모델을 통해 자동화될 수 있습니다. 비록 큰 잠재력을 가지고 있지만, 비디오 확산 모델은 제어가 어려워 사용자가 자신의 창의성을 발휘하기보다는 오히려 방해받는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 동적 3D 메시의 제어 가능성과 최신 확산 모델의 표현력 및 편집 가능성을 결합한 새로운 접근 방식을 제시합니다. 이를 위해, 우리의 접근 방식은 애니메이션화된 저해상도 렌더링 메시를 입력으로 받아, 동적 메시에서 얻은 실제 대응 정보를 사전 훈련된 텍스트-투-이미지 생성 모델의 다양한 단계에 주입하여 고품질이고 시간적으로 일관된 프레임을 출력합니다. 우리는 리깅된 에셋을 애니메이션화하거나 카메라 경로를 변경하여 움직임을 얻을 수 있는 다양한 예제를 통해 이 접근 방식을 시연합니다.
English
Traditional 3D content creation tools empower users to bring their
imagination to life by giving them direct control over a scene's geometry,
appearance, motion, and camera path. Creating computer-generated videos,
however, is a tedious manual process, which can be automated by emerging
text-to-video diffusion models. Despite great promise, video diffusion models
are difficult to control, hindering a user to apply their own creativity rather
than amplifying it. To address this challenge, we present a novel approach that
combines the controllability of dynamic 3D meshes with the expressivity and
editability of emerging diffusion models. For this purpose, our approach takes
an animated, low-fidelity rendered mesh as input and injects the ground truth
correspondence information obtained from the dynamic mesh into various stages
of a pre-trained text-to-image generation model to output high-quality and
temporally consistent frames. We demonstrate our approach on various examples
where motion can be obtained by animating rigged assets or changing the camera
path.