TexGen: Text-geführte 3D-Texturerzeugung mit Multi-View-Sampling und -Neuabtastung
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Autoren: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Zusammenfassung
Bei einer 3D-Mesh-Struktur streben wir danach, 3D-Texturen zu synthetisieren, die beliebigen textuellen Beschreibungen entsprechen. Aktuelle Methoden zur Generierung und Zusammenstellung von Texturen aus abgetasteten Ansichten führen häufig zu auffälligen Nähten oder übermäßiger Glättung. Um diese Probleme anzugehen, präsentieren wir TexGen, ein neuartiges Multi-View-Abtastungs- und Neubildungs-Framework für die Texturengenerierung, das ein vortrainiertes Text-zu-Bild-Diffusionsmodell nutzt. Für eine konsistente Abtastung der Ansichten pflegen wir zunächst eine Texturkarte im RGB-Raum, die durch den Entrauschungsschritt parametrisiert ist und nach jedem Abtastschritt des Diffusionsmodells aktualisiert wird, um die Ansichtsdiskrepanz schrittweise zu reduzieren. Eine auf Aufmerksamkeit basierende Multi-View-Abtaststrategie wird genutzt, um die Erscheinungsinformationen über die Ansichten hinweg zu übertragen. Zur Erhaltung von Texturdetails entwickeln wir eine Rauschneubildungstechnik, die bei der Schätzung von Rauschen hilft, Eingaben für nachfolgende Entrauschungsschritte generiert, wie durch die Textvorgabe und die aktuelle Texturkarte angeleitet. Durch eine umfangreiche Menge an qualitativen und quantitativen Bewertungen zeigen wir, dass unsere vorgeschlagene Methode eine signifikant bessere Texturqualität für vielfältige 3D-Objekte mit einem hohen Maß an Ansichtskonsistenz und reichen Erscheinungsdetails erzeugt und dabei aktuelle State-of-the-Art-Methoden übertrifft. Darüber hinaus kann unsere vorgeschlagene Texturgenerierungstechnik auch für die Texturbearbeitung unter Beibehaltung der ursprünglichen Identität angewendet werden. Weitere experimentelle Ergebnisse sind unter https://dong-huo.github.io/TexGen/ verfügbar.
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/Summary
AI-Generated Summary