TexFusion: Síntesis de texturas 3D con modelos de difusión de imágenes guiados por texto
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models
October 20, 2023
Autores: Tianshi Cao, Karsten Kreis, Sanja Fidler, Nicholas Sharp, Kangxue Yin
cs.AI
Resumen
Presentamos TexFusion (Difusión de Texturas), un nuevo método para sintetizar texturas en geometrías 3D dadas, utilizando modelos de difusión de imágenes guiados por texto a gran escala. A diferencia de trabajos recientes que aprovechan modelos de difusión de texto a imagen en 2D para destilar objetos 3D mediante un proceso de optimización lento y frágil, TexFusion introduce una nueva técnica de generación consistente en 3D diseñada específicamente para la síntesis de texturas, que emplea muestreo regular del modelo de difusión en diferentes vistas renderizadas en 2D. Específicamente, aprovechamos modelos de difusión latente, aplicamos el desruidor del modelo de difusión en un conjunto de renders 2D del objeto 3D y agregamos las diferentes predicciones de desruido en un mapa de textura latente compartido. Las texturas RGB finales se producen optimizando un campo de color neural intermedio en las decodificaciones de renders 2D de la textura latente. Validamos exhaustivamente TexFusion y demostramos que podemos generar de manera eficiente texturas diversas, de alta calidad y globalmente coherentes. Logramos un rendimiento de vanguardia en la síntesis de texturas guiada por texto utilizando únicamente modelos de difusión de imágenes, evitando los inconvenientes de los métodos anteriores basados en destilación. El condicionamiento por texto ofrece un control detallado y tampoco dependemos de texturas 3D de referencia para el entrenamiento. Esto hace que nuestro método sea versátil y aplicable a una amplia gama de geometrías y tipos de textura. Esperamos que TexFusion impulse el texturizado basado en IA de activos 3D para aplicaciones en realidad virtual, diseño de juegos, simulación y más.
English
We present TexFusion (Texture Diffusion), a new method to synthesize textures
for given 3D geometries, using large-scale text-guided image diffusion models.
In contrast to recent works that leverage 2D text-to-image diffusion models to
distill 3D objects using a slow and fragile optimization process, TexFusion
introduces a new 3D-consistent generation technique specifically designed for
texture synthesis that employs regular diffusion model sampling on different 2D
rendered views. Specifically, we leverage latent diffusion models, apply the
diffusion model's denoiser on a set of 2D renders of the 3D object, and
aggregate the different denoising predictions on a shared latent texture map.
Final output RGB textures are produced by optimizing an intermediate neural
color field on the decodings of 2D renders of the latent texture. We thoroughly
validate TexFusion and show that we can efficiently generate diverse, high
quality and globally coherent textures. We achieve state-of-the-art text-guided
texture synthesis performance using only image diffusion models, while avoiding
the pitfalls of previous distillation-based methods. The text-conditioning
offers detailed control and we also do not rely on any ground truth 3D textures
for training. This makes our method versatile and applicable to a broad range
of geometry and texture types. We hope that TexFusion will advance AI-based
texturing of 3D assets for applications in virtual reality, game design,
simulation, and more.