ChatPaper.aiChatPaper

RodinHD: 拡散モデルを用いた高精細3Dアバター生成

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

July 9, 2024
著者: Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo
cs.AI

要旨

本論文では、ポートレート画像から高精細な3Dアバターを生成するRodinHDを提案する。既存手法ではヘアスタイルなどの細部を捉えることが困難であったが、本手法ではこの課題に取り組む。まず、多くのアバターに対してtriplaneを順次フィッティングする際に、MLPデコーダの共有スキームによって引き起こされる破滅的忘却という見過ごされていた問題を特定した。この問題を克服するため、新たなデータスケジューリング戦略と重み統合正則化項を導入し、デコーダの細部をより鮮明にレンダリングする能力を向上させた。さらに、ポートレート画像のガイダンス効果を最適化するため、豊富な2Dテクスチャの手がかりを捉える階層的表現をより細かい粒度で計算し、それらをクロスアテンションを介して3D拡散モデルの複数の層に注入する。46Kのアバターデータセットで学習し、triplaneに最適化されたノイズスケジュールを用いることで、従来手法よりも顕著に優れた細部を持つ3Dアバターを生成し、実世界のポートレート入力にも汎化可能なモデルを実現した。
English
We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.

Summary

AI-Generated Summary

PDF241November 28, 2024