ChatPaper.aiChatPaper

RodinHD: 확산 모델을 활용한 고품질 3D 아바타 생성

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

July 9, 2024
저자: Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo
cs.AI

초록

우리는 초상화 이미지로부터 고해상도 3D 아바타를 생성할 수 있는 RodinHD를 소개한다. 기존 방법들은 헤어스타일과 같은 복잡한 디테일을 포착하지 못하는데, 본 논문에서는 이를 해결하고자 한다. 먼저, 우리는 다수의 아바타에 대해 순차적으로 트라이플레인(triplane)을 피팅할 때 발생하는 치명적인 망각(catastrophic forgetting) 문제를 식별했다. 이 문제는 MLP 디코더 공유 방식에서 비롯된다. 이를 극복하기 위해, 우리는 새로운 데이터 스케줄링 전략과 가중치 통합(weight consolidation) 정규화 항을 제안하여 디코더의 선명한 디테일 렌더링 능력을 향상시켰다. 또한, 초상화 이미지의 가이딩 효과를 최적화하기 위해 더 세밀한 계층적 표현을 계산하여 풍부한 2D 텍스처 단서를 포착하고, 이를 크로스-어텐션(cross-attention)을 통해 3D 확산 모델의 여러 레이어에 주입한다. 트라이플레인에 최적화된 노이즈 스케줄로 46K개의 아바타를 학습한 결과, 이 모델은 이전 방법들보다 훨씬 더 나은 디테일로 3D 아바타를 생성할 수 있으며, 실제 환경의 초상화 입력에도 일반화할 수 있다.
English
We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.

Summary

AI-Generated Summary

PDF241November 28, 2024