TexGen: Geração de Textura 3D Guiada por Texto com Amostragem e Reamostragem Multivisão
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Autores: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Resumo
Dado um modelo 3D, temos como objetivo sintetizar texturas 3D que correspondam a descrições textuais arbitrárias. Métodos atuais para gerar e montar texturas a partir de vistas amostradas frequentemente resultam em costuras proeminentes ou suavização excessiva. Para lidar com essas questões, apresentamos o TexGen, um novo framework de amostragem e reamostragem multi-view para geração de texturas, aproveitando um modelo de difusão texto-imagem pré-treinado. Para uma amostragem consistente de vistas, primeiramente mantemos um mapa de textura no espaço RGB que é parametrizado pela etapa de denoising e atualizado após cada etapa de amostragem do modelo de difusão para reduzir progressivamente a discrepância de vistas. Uma estratégia de amostragem multi-view guiada por atenção é explorada para difundir as informações de aparência entre as vistas. Para preservar detalhes da textura, desenvolvemos uma técnica de reamostragem de ruído que auxilia na estimativa de ruído, gerando entradas para etapas de denoising subsequentes, conforme orientado pela instrução de texto e mapa de textura atual. Através de uma quantidade extensiva de avaliações qualitativas e quantitativas, demonstramos que nosso método proposto produz uma qualidade de textura significativamente melhor para diversos objetos 3D com um alto grau de consistência de vistas e ricos detalhes de aparência, superando os métodos atuais de ponta. Além disso, nossa técnica proposta de geração de textura também pode ser aplicada à edição de texturas enquanto preserva a identidade original. Mais resultados experimentais estão disponíveis em https://dong-huo.github.io/TexGen/
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/Summary
AI-Generated Summary