ChatPaper.aiChatPaper

RodinHD: Hochauflösende 3D-Avatar-Erzeugung mit Diffusionsmodellen

RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

July 9, 2024
Autoren: Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo
cs.AI

Zusammenfassung

Wir präsentieren RodinHD, das hochwertige 3D-Avatare aus einem Porträtbild generieren kann. Bestehende Methoden scheitern daran, feine Details wie Frisuren zu erfassen, was wir in diesem Papier angehen. Zunächst identifizieren wir ein übersehenes Problem des katastrophalen Vergessens, das auftritt, wenn Triplanes sequenziell auf viele Avatare angepasst werden, verursacht durch das gemeinsame Schema des MLP-Decoders. Um dieses Problem zu überwinden, führen wir eine neuartige Datenplanungsstrategie und einen Regularisierungsterm zur Gewichtskonsolidierung ein, der die Fähigkeit des Decoders zur Darstellung schärferer Details verbessert. Darüber hinaus optimieren wir den Leiteffekt des Porträtbildes, indem wir eine feiner abgestufte hierarchische Darstellung berechnen, die reichhaltige 2D-Texturhinweise erfasst, und sie über Kreuz-Aufmerksamkeitsschichten in das 3D-Diffusionsmodell auf mehreren Ebenen einspeisen. Nach dem Training an 46.000 Avataren mit einem für Triplanes optimierten Rauschplan kann das resultierende Modell 3D-Avatare mit deutlich besseren Details als bisherige Methoden generieren und sich auf Porträteingaben in freier Wildbahn generalisieren.
English
We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder's capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.

Summary

AI-Generated Summary

PDF241November 28, 2024