TexGen: Generación de Texturas 3D Guiada por Texto con Muestreo y Remuestreo Multivista
TexGen: Text-Guided 3D Texture Generation with Multi-view Sampling and Resampling
August 2, 2024
Autores: Dong Huo, Zixin Guo, Xinxin Zuo, Zhihao Shi, Juwei Lu, Peng Dai, Songcen Xu, Li Cheng, Yee-Hong Yang
cs.AI
Resumen
Dado un mallado 3D, nuestro objetivo es sintetizar texturas 3D que correspondan a descripciones textuales arbitrarias. Los métodos actuales para generar y ensamblar texturas a partir de vistas muestreadas a menudo resultan en costuras prominentes o suavizado excesivo. Para abordar estos problemas, presentamos TexGen, un novedoso marco de muestreo y remuestreo multi-vista para la generación de texturas que aprovecha un modelo de difusión de texto a imagen pre-entrenado. Para un muestreo consistente de vistas, en primer lugar mantenemos un mapa de textura en el espacio RGB que está parametrizado por el paso de eliminación de ruido y se actualiza después de cada paso de muestreo del modelo de difusión para reducir progresivamente la discrepancia de vistas. Se emplea una estrategia de muestreo multi-vista guiada por atención para difundir la información de apariencia entre vistas. Para preservar los detalles de la textura, desarrollamos una técnica de remuestreo de ruido que ayuda en la estimación del ruido, generando entradas para los pasos de eliminación de ruido subsiguientes, según lo indicado por la instrucción de texto y el mapa de textura actual. A través de una cantidad extensa de evaluaciones cualitativas y cuantitativas, demostramos que nuestro método propuesto produce una calidad de textura significativamente mejor para diversos objetos 3D con un alto grado de consistencia de vistas y ricos detalles de apariencia, superando a los métodos actuales de vanguardia. Además, nuestra técnica propuesta de generación de texturas también se puede aplicar a la edición de texturas preservando la identidad original. Más resultados experimentales están disponibles en https://dong-huo.github.io/TexGen/
English
Given a 3D mesh, we aim to synthesize 3D textures that correspond to
arbitrary textual descriptions. Current methods for generating and assembling
textures from sampled views often result in prominent seams or excessive
smoothing. To tackle these issues, we present TexGen, a novel multi-view
sampling and resampling framework for texture generation leveraging a
pre-trained text-to-image diffusion model. For view consistent sampling, first
of all we maintain a texture map in RGB space that is parameterized by the
denoising step and updated after each sampling step of the diffusion model to
progressively reduce the view discrepancy. An attention-guided multi-view
sampling strategy is exploited to broadcast the appearance information across
views. To preserve texture details, we develop a noise resampling technique
that aids in the estimation of noise, generating inputs for subsequent
denoising steps, as directed by the text prompt and current texture map.
Through an extensive amount of qualitative and quantitative evaluations, we
demonstrate that our proposed method produces significantly better texture
quality for diverse 3D objects with a high degree of view consistency and rich
appearance details, outperforming current state-of-the-art methods.
Furthermore, our proposed texture generation technique can also be applied to
texture editing while preserving the original identity. More experimental
results are available at https://dong-huo.github.io/TexGen/Summary
AI-Generated Summary