계층적 표면 볼륨을 활용한 효율적인 3D 관절형 인간 생성
Efficient 3D Articulated Human Generation with Layered Surface Volumes
July 11, 2023
저자: Yinghao Xu, Wang Yifan, Alexander W. Bergman, Menglei Chai, Bolei Zhou, Gordon Wetzstein
cs.AI
초록
고품질이고 다양한 3D 관절형 디지털 인간 자산에 대한 접근은 가상 현실부터 소셜 플랫폼에 이르기까지 다양한 응용 분야에서 매우 중요합니다. 3D 생성적 적대 신경망(GAN)과 같은 생성적 접근 방식은 수작업 콘텐츠 제작 도구를 빠르게 대체하고 있습니다. 그러나 기존의 3D GAN 프레임워크는 일반적으로 템플릿 메시(빠르지만 품질이 제한적)나 볼륨(고용량이지만 렌더링이 느림)과 같은 장면 표현에 의존하며, 이는 GAN 설정에서 3D 충실도를 제한합니다. 본 연구에서는 관절형 디지털 인간을 위한 새로운 3D 객체 표현으로 계층화된 표면 볼륨(LSV)을 소개합니다. LSV은 기존 템플릿 주위에 여러 텍스처 메시 레이어를 사용하여 인간의 몸을 표현합니다. 이러한 레이어는 빠른 미분 가능 래스터화를 통해 알파 합성으로 렌더링되며, 템플릿 주위의 유한 두께 매니폴드에 용량을 할당하는 볼륨 표현으로 해석될 수 있습니다. 머리카락이나 액세서리와 같은 미세한 표면 외부 세부 사항을 표현하는 데 어려움을 겪는 기존의 단일 레이어 템플릿과 달리, 우리의 표면 볼륨은 이러한 세부 사항을 자연스럽게 포착합니다. LSV은 관절형으로 조작할 수 있으며, 2D 생성기가 개별 레이어의 RGBA 텍스처를 합성하도록 학습하는 GAN 설정에서 탁월한 효율성을 보입니다. 비정형 단일 뷰 2D 이미지 데이터셋으로 학습된 우리의 LSV-GAN은 뷰 불일치 2D 업샘플링 네트워크 없이도 고품질이고 뷰 일관성이 있는 3D 관절형 디지털 인간을 생성합니다.
English
Access to high-quality and diverse 3D articulated digital human assets is
crucial in various applications, ranging from virtual reality to social
platforms. Generative approaches, such as 3D generative adversarial networks
(GANs), are rapidly replacing laborious manual content creation tools. However,
existing 3D GAN frameworks typically rely on scene representations that
leverage either template meshes, which are fast but offer limited quality, or
volumes, which offer high capacity but are slow to render, thereby limiting the
3D fidelity in GAN settings. In this work, we introduce layered surface volumes
(LSVs) as a new 3D object representation for articulated digital humans. LSVs
represent a human body using multiple textured mesh layers around a
conventional template. These layers are rendered using alpha compositing with
fast differentiable rasterization, and they can be interpreted as a volumetric
representation that allocates its capacity to a manifold of finite thickness
around the template. Unlike conventional single-layer templates that struggle
with representing fine off-surface details like hair or accessories, our
surface volumes naturally capture such details. LSVs can be articulated, and
they exhibit exceptional efficiency in GAN settings, where a 2D generator
learns to synthesize the RGBA textures for the individual layers. Trained on
unstructured, single-view 2D image datasets, our LSV-GAN generates high-quality
and view-consistent 3D articulated digital humans without the need for
view-inconsistent 2D upsampling networks.