ChatPaper.aiChatPaper

3D 제어를 통한 움직이는 사람 합성

Synthesizing Moving People with 3D Control

January 19, 2024
저자: Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik
cs.AI

초록

본 논문에서는 단일 이미지와 주어진 3D 모션 시퀀스를 기반으로 사람을 애니메이션화하기 위한 확산 모델 기반 프레임워크를 제시합니다. 우리의 접근 방식은 두 가지 핵심 구성 요소로 이루어져 있습니다: a) 인간 신체와 의류의 보이지 않는 부분에 대한 사전 지식을 학습하는 것, b) 적절한 의류와 질감을 갖춘 새로운 신체 자세를 렌더링하는 것. 첫 번째 부분에서는 단일 이미지를 기반으로 사람의 보이지 않는 부분을 상상할 수 있는 인필링(in-filling) 확산 모델을 학습합니다. 이 모델은 포즈와 시점에 불변하기 때문에 샘플 효율성이 높은 텍스처 맵 공간에서 학습합니다. 두 번째로, 3D 인간 포즈로 제어되는 확산 기반 렌더링 파이프라인을 개발합니다. 이를 통해 의류, 머리카락, 그리고 보이지 않는 영역의 그럴듯한 인필링을 포함한 사람의 새로운 포즈를 사실적으로 렌더링합니다. 이러한 분리된 접근 방식은 우리의 방법이 3D 포즈에서 목표 모션에 충실하고, 입력 이미지와 시각적 유사성을 유지하는 일련의 이미지를 생성할 수 있게 합니다. 또한, 3D 제어를 통해 다양한 합성 카메라 궤적을 사용하여 사람을 렌더링할 수 있습니다. 우리의 실험 결과는 기존 방법에 비해 장기간의 모션과 다양한 도전적이고 복잡한 포즈를 생성하는 데 있어 우리의 방법이 탄력적임을 보여줍니다. 자세한 내용은 웹사이트를 참조하십시오: https://boyiliee.github.io/3DHM.github.io/.
English
In this paper, we present a diffusion model-based framework for animating people from a single image for a given target 3D motion sequence. Our approach has two core components: a) learning priors about invisible parts of the human body and clothing, and b) rendering novel body poses with proper clothing and texture. For the first part, we learn an in-filling diffusion model to hallucinate unseen parts of a person given a single image. We train this model on texture map space, which makes it more sample-efficient since it is invariant to pose and viewpoint. Second, we develop a diffusion-based rendering pipeline, which is controlled by 3D human poses. This produces realistic renderings of novel poses of the person, including clothing, hair, and plausible in-filling of unseen regions. This disentangled approach allows our method to generate a sequence of images that are faithful to the target motion in the 3D pose and, to the input image in terms of visual similarity. In addition to that, the 3D control allows various synthetic camera trajectories to render a person. Our experiments show that our method is resilient in generating prolonged motions and varied challenging and complex poses compared to prior methods. Please check our website for more details: https://boyiliee.github.io/3DHM.github.io/.
PDF121December 15, 2024