RodinHD : Génération d'avatars 3D haute fidélité avec des modèles de diffusion

papers.abstract

Nous présentons RodinHD, un modèle capable de générer des avatars 3D haute fidélité à partir d'une image portrait. Les méthodes existantes échouent à capturer des détails complexes tels que les coiffures, un défi que nous abordons dans cet article. Nous identifions d'abord un problème négligé d'oubli catastrophique qui survient lors de l'ajustement séquentiel de triplans sur de nombreux avatars, causé par le partage du décodeur MLP. Pour surmonter cette limitation, nous proposons une nouvelle stratégie de planification des données ainsi qu'un terme de régularisation par consolidation des poids, améliorant ainsi la capacité du décodeur à restituer des détails plus nets. Par ailleurs, nous optimisons l'effet de guidage de l'image portrait en calculant une représentation hiérarchique plus fine qui capture des indices texturaux 2D riches, et en les injectant dans le modèle de diffusion 3D à travers plusieurs couches via une attention croisée. Entraîné sur 46 000 avatars avec un plan de bruit optimisé pour les triplans, le modèle résultant peut générer des avatars 3D avec des détails nettement supérieurs aux méthodes précédentes et généraliser à des portraits en conditions réelles.

English

We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.

RodinHD : Génération d'avatars 3D haute fidélité avec des modèles de diffusion

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

papers.abstract

Support