RodinHD : Génération d'avatars 3D haute fidélité avec des modèles de diffusion
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models
July 9, 2024
Auteurs: Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo
cs.AI
Résumé
Nous présentons RodinHD, un modèle capable de générer des avatars 3D haute fidélité à partir d'une image portrait. Les méthodes existantes échouent à capturer des détails complexes tels que les coiffures, un défi que nous abordons dans cet article. Nous identifions d'abord un problème négligé d'oubli catastrophique qui survient lors de l'ajustement séquentiel de triplans sur de nombreux avatars, causé par le partage du décodeur MLP. Pour surmonter cette limitation, nous proposons une nouvelle stratégie de planification des données ainsi qu'un terme de régularisation par consolidation des poids, améliorant ainsi la capacité du décodeur à restituer des détails plus nets. Par ailleurs, nous optimisons l'effet de guidage de l'image portrait en calculant une représentation hiérarchique plus fine qui capture des indices texturaux 2D riches, et en les injectant dans le modèle de diffusion 3D à travers plusieurs couches via une attention croisée. Entraîné sur 46 000 avatars avec un plan de bruit optimisé pour les triplans, le modèle résultant peut générer des avatars 3D avec des détails nettement supérieurs aux méthodes précédentes et généraliser à des portraits en conditions réelles.
English
We present RodinHD, which can generate high-fidelity 3D avatars from a
portrait image. Existing methods fail to capture intricate details such as
hairstyles which we tackle in this paper. We first identify an overlooked
problem of catastrophic forgetting that arises when fitting triplanes
sequentially on many avatars, caused by the MLP decoder sharing scheme. To
overcome this issue, we raise a novel data scheduling strategy and a weight
consolidation regularization term, which improves the decoder's capability of
rendering sharper details. Additionally, we optimize the guiding effect of the
portrait image by computing a finer-grained hierarchical representation that
captures rich 2D texture cues, and injecting them to the 3D diffusion model at
multiple layers via cross-attention. When trained on 46K avatars with a noise
schedule optimized for triplanes, the resulting model can generate 3D avatars
with notably better details than previous methods and can generalize to
in-the-wild portrait input.Summary
AI-Generated Summary