TexGen: Tekstgestuurde 3D-textuurgeneratie met multi-view sampling en hersampling

Samenvatting

Gegeven een 3D-mesh, streven we ernaar om 3D-texturen te synthetiseren die overeenkomen met willekeurige tekstuele beschrijvingen. Huidige methoden voor het genereren en assembleren van texturen uit bemonsterde aanzichten resulteren vaak in opvallende naden of overmatige gladheid. Om deze problemen aan te pakken, presenteren we TexGen, een nieuw multi-view bemonsterings- en herbemonsteringsraamwerk voor textuurgeneratie dat gebruikmaakt van een vooraf getraind tekst-naar-beeld diffusiemodel. Voor consistente bemonstering van aanzichten, handhaven we eerst een textuurkaart in RGB-ruimte die geparametriseerd is door de denoiseringsstap en die na elke bemonsteringsstap van het diffusiemodel wordt bijgewerkt om de aanzichtsdiscrepantie geleidelijk te verminderen. Een aandacht-gestuurde multi-view bemonsteringsstrategie wordt gebruikt om de uiterlijke informatie over aanzichten te verspreiden. Om textuurdetails te behouden, ontwikkelen we een ruisherbemonsteringstechniek die helpt bij het schatten van ruis, waarbij invoer wordt gegenereerd voor volgende denoiseringsstappen, zoals bepaald door de tekstprompt en de huidige textuurkaart. Door middel van uitgebreide kwalitatieve en kwantitatieve evaluaties tonen we aan dat onze voorgestelde methode aanzienlijk betere textuurkwaliteit produceert voor diverse 3D-objecten met een hoge mate van aanzichtsconsistentie en rijke uiterlijke details, wat huidige state-of-the-art methoden overtreft. Bovendien kan onze voorgestelde textuurgeneratietechniek ook worden toegepast op textuurbewerking terwijl de oorspronkelijke identiteit behouden blijft. Meer experimentele resultaten zijn beschikbaar op https://dong-huo.github.io/TexGen/.

English

Given a 3D mesh, we aim to synthesize 3D textures that correspond to arbitrary textual descriptions. Current methods for generating and assembling textures from sampled views often result in prominent seams or excessive smoothing. To tackle these issues, we present TexGen, a novel multi-view sampling and resampling framework for texture generation leveraging a pre-trained text-to-image diffusion model. For view consistent sampling, first of all we maintain a texture map in RGB space that is parameterized by the denoising step and updated after each sampling step of the diffusion model to progressively reduce the view discrepancy. An attention-guided multi-view sampling strategy is exploited to broadcast the appearance information across views. To preserve texture details, we develop a noise resampling technique that aids in the estimation of noise, generating inputs for subsequent denoising steps, as directed by the text prompt and current texture map. Through an extensive amount of qualitative and quantitative evaluations, we demonstrate that our proposed method produces significantly better texture quality for diverse 3D objects with a high degree of view consistency and rich appearance details, outperforming current state-of-the-art methods. Furthermore, our proposed texture generation technique can also be applied to texture editing while preserving the original identity. More experimental results are available at https://dong-huo.github.io/TexGen/

TexGen: Tekstgestuurde 3D-textuurgeneratie met multi-view sampling en hersampling

TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling

Samenvatting

Support