TexGen: Tekstgestuurde 3D-textuurgeneratie met multi-view sampling en hersampling
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Auteurs: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Samenvatting
Gegeven een 3D-mesh, streven we ernaar om 3D-texturen te synthetiseren die overeenkomen met willekeurige tekstuele beschrijvingen. Huidige methoden voor het genereren en assembleren van texturen uit bemonsterde aanzichten resulteren vaak in opvallende naden of overmatige gladheid. Om deze problemen aan te pakken, presenteren we TexGen, een nieuw multi-view bemonsterings- en herbemonsteringsraamwerk voor textuurgeneratie dat gebruikmaakt van een vooraf getraind tekst-naar-beeld diffusiemodel. Voor consistente bemonstering van aanzichten, handhaven we eerst een textuurkaart in RGB-ruimte die geparametriseerd is door de denoiseringsstap en die na elke bemonsteringsstap van het diffusiemodel wordt bijgewerkt om de aanzichtsdiscrepantie geleidelijk te verminderen. Een aandacht-gestuurde multi-view bemonsteringsstrategie wordt gebruikt om de uiterlijke informatie over aanzichten te verspreiden. Om textuurdetails te behouden, ontwikkelen we een ruisherbemonsteringstechniek die helpt bij het schatten van ruis, waarbij invoer wordt gegenereerd voor volgende denoiseringsstappen, zoals bepaald door de tekstprompt en de huidige textuurkaart. Door middel van uitgebreide kwalitatieve en kwantitatieve evaluaties tonen we aan dat onze voorgestelde methode aanzienlijk betere textuurkwaliteit produceert voor diverse 3D-objecten met een hoge mate van aanzichtsconsistentie en rijke uiterlijke details, wat huidige state-of-the-art methoden overtreft. Bovendien kan onze voorgestelde textuurgeneratietechniek ook worden toegepast op textuurbewerking terwijl de oorspronkelijke identiteit behouden blijft. Meer experimentele resultaten zijn beschikbaar op https://dong-huo.github.io/TexGen/.
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/