NaTex: Geração de Texturas Sem Emendas como Difusão Latente de Cores

Resumo

Apresentamos o NaTex, uma estrutura de geração de texturas nativa que prevê a cor da textura diretamente no espaço 3D. Em contraste com abordagens anteriores que dependem do "cozimento" (baking) de imagens 2D multi-visão sintetizadas por modelos de Difusão Multi-Visão condicionados por geometria (MVDs), o NaTex evita várias limitações inerentes ao pipeline MVD. Estas incluem dificuldades em lidar com regiões ocluídas que requerem preenchimento (inpainting), alcançar um alinhamento preciso entre a malha e a textura ao longo das fronteiras e manter a consistência e coerência entre vistas, tanto no conteúdo quanto na intensidade da cor. O NaTex apresenta um novo paradigma que aborda os problemas mencionados ao tratar a textura como uma nuvem densa de pontos de cor. Guiados por esta ideia, propomos a difusão latente de cor, que compreende um VAE de nuvem de pontos de cor consciente da geometria e um transformador de difusão com multi-controle (DiT), totalmente treinado desde o início usando dados 3D, para reconstrução e geração de texturas. Para permitir um alinhamento preciso, introduzimos um controle de geometria nativo que condiciona o DiT com informações espaciais 3D diretas por meio de incorporações posicionais (positional embeddings) e latentes geométricos. Co-projetamos a arquitetura VAE-DiT, na qual os latentes geométricos são extraídos por meio de um ramo de geometria dedicado, fortemente acoplado ao VAE de cor, fornecendo uma orientação de superfície de granularidade fina que mantém uma forte correspondência com a textura. Com estes projetos, o NaTex demonstra um forte desempenho, superando significativamente os métodos anteriores em coerência e alinhamento de texturas. Além disso, o NaTex também exibe fortes capacidades de generalização, seja sem necessidade de treino adicional (training-free) ou com ajustes simples, para várias aplicações subsequentes, por exemplo, geração de materiais, refinamento de textura, e segmentação e texturização de partes.

English

We present NaTex, a native texture generation framework that predicts texture color directly in 3D space. In contrast to previous approaches that rely on baking 2D multi-view images synthesized by geometry-conditioned Multi-View Diffusion models (MVDs), NaTex avoids several inherent limitations of the MVD pipeline. These include difficulties in handling occluded regions that require inpainting, achieving precise mesh-texture alignment along boundaries, and maintaining cross-view consistency and coherence in both content and color intensity. NaTex features a novel paradigm that addresses the aforementioned issues by viewing texture as a dense color point cloud. Driven by this idea, we propose latent color diffusion, which comprises a geometry-awared color point cloud VAE and a multi-control diffusion transformer (DiT), entirely trained from scratch using 3D data, for texture reconstruction and generation. To enable precise alignment, we introduce native geometry control that conditions the DiT on direct 3D spatial information via positional embeddings and geometry latents. We co-design the VAE-DiT architecture, where the geometry latents are extracted via a dedicated geometry branch tightly coupled with the color VAE, providing fine-grained surface guidance that maintains strong correspondence with the texture. With these designs, NaTex demonstrates strong performance, significantly outperforming previous methods in texture coherence and alignment. Moreover, NaTex also exhibits strong generalization capabilities, either training-free or with simple tuning, for various downstream applications, e.g., material generation, texture refinement, and part segmentation and texturing.