NaTex: Generación de texturas sin costuras como difusión latente de color
NaTex: Seamless Texture Generation as Latent Color Diffusion
November 20, 2025
Autores: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Xin Yang, Xin Huang, Jingwei Huang, Xiangyu Yue, Chunchao Guo
cs.AI
Resumen
Presentamos NaTex, un marco de generación de texturas nativo que predice el color de la textura directamente en el espacio 3D. A diferencia de enfoques previos que dependen de la "horneada" (baking) de imágenes 2D de múltiples vistas sintetizadas por modelos de Difusión de Múltiples Vistas condicionados por geometría (MVDs), NaTex evita varias limitaciones inherentes al pipeline MVD. Estas incluyen las dificultades para manejar regiones ocluidas que requieren inpaintin, lograr una alineación precisa entre malla y textura a lo largo de los bordes, y mantener la consistencia y coherencia entre vistas tanto en el contenido como en la intensidad del color. NaTex presenta un paradigma novedoso que aborda los problemas antes mencionados al considerar la textura como una nube de puntos de color densa. Impulsados por esta idea, proponemos la difusión latente de color, que comprende un VAE de nube de puntos de color consciente de la geometría y un transformador de difusión de multi-control (DiT), entrenados completamente desde cero usando datos 3D, para la reconstrucción y generación de texturas. Para permitir una alineación precisa, introducimos un control de geometría nativo que condiciona el DiT con información espacial 3D directa mediante positional embeddings y latentes geométricos. Co-diseñamos la arquitectura VAE-DiT, donde los latentes geométricos se extraen mediante una rama de geometría dedicada estrechamente acoplada con el VAE de color, proporcionando una guía de superficie de grano fino que mantiene una fuerte correspondencia con la textura. Con estos diseños, NaTex demuestra un rendimiento sólido, superando significativamente a métodos anteriores en coherencia y alineación de texturas. Además, NaTex también exhibe fuertes capacidades de generalización, ya sea sin necesidad de entrenamiento adicional o con un ajuste simple, para varias aplicaciones posteriores, por ejemplo, generación de materiales, refinamiento de texturas, y segmentación y texturizado de partes.
English
We present NaTex, a native texture generation framework that predicts texture color directly in 3D space. In contrast to previous approaches that rely on baking 2D multi-view images synthesized by geometry-conditioned Multi-View Diffusion models (MVDs), NaTex avoids several inherent limitations of the MVD pipeline. These include difficulties in handling occluded regions that require inpainting, achieving precise mesh-texture alignment along boundaries, and maintaining cross-view consistency and coherence in both content and color intensity. NaTex features a novel paradigm that addresses the aforementioned issues by viewing texture as a dense color point cloud. Driven by this idea, we propose latent color diffusion, which comprises a geometry-awared color point cloud VAE and a multi-control diffusion transformer (DiT), entirely trained from scratch using 3D data, for texture reconstruction and generation. To enable precise alignment, we introduce native geometry control that conditions the DiT on direct 3D spatial information via positional embeddings and geometry latents. We co-design the VAE-DiT architecture, where the geometry latents are extracted via a dedicated geometry branch tightly coupled with the color VAE, providing fine-grained surface guidance that maintains strong correspondence with the texture. With these designs, NaTex demonstrates strong performance, significantly outperforming previous methods in texture coherence and alignment. Moreover, NaTex also exhibits strong generalization capabilities, either training-free or with simple tuning, for various downstream applications, e.g., material generation, texture refinement, and part segmentation and texturing.