NaTex: Nahtlose Texturgenerierung als latente Farbdiffusion
NaTex: Seamless Texture Generation as Latent Color Diffusion
November 20, 2025
papers.authors: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Xin Yang, Xin Huang, Jingwei Huang, Xiangyu Yue, Chunchao Guo
cs.AI
papers.abstract
Wir stellen NaTex vor, einen nativen Texturgenerierungsansatz, der Texturfarben direkt im 3D-Raum vorhersagt. Im Gegensatz zu früheren Methoden, die auf das Backen von 2D-Multi-View-Bildern angewiesen sind, die durch geometrie-konditionierte Multi-View-Diffusionsmodelle (MVDs) synthetisiert werden, vermeidet NaTex mehrere inhärente Einschränkungen der MVD-Pipeline. Dazu gehören Schwierigkeiten bei der Behandlung verdeckter Bereiche, die eine Inpainting erfordern, die Erzielung einer präzisen Mesh-Textur-Ausrichtung entlang von Grenzen sowie die Wahrung der konsistenten und kohärenten Darstellung über alle Ansichten hinweg sowohl inhaltlich als auch in der Farbintensität. NaTex zeichnet sich durch ein neuartiges Paradigma aus, das die genannten Probleme adressiert, indem Textur als eine dichte Farbpunktwolke betrachtet wird. Aufbauend auf dieser Idee schlagen wir latente Farbdiffusion vor, die einen geometrie-bewussten Farbpunktwolken-VAE und einen Multi-Control-Diffusion-Transformer (DiT) umfasst, die vollständig von Grund auf mit 3D-Daten für Texturrekonstruktion und -generierung trainiert werden. Um eine präzise Ausrichtung zu ermöglichen, führen wir eine native Geometrie-Steuerung ein, die den DiT über Positions-Einbettungen und geometrische Latents auf direkte 3D-Rauminformationen konditioniert. Wir entwickeln die VAE-DiT-Architektur gemeinsam, wobei die geometrischen Latents über einen dedizierten, eng mit dem Farb-VAE gekoppelten Geometrie-Zweig extrahiert werden. Dies liefert eine feinkörnige Oberflächenführung, die eine starke Korrespondenz mit der Textur beibehält. Durch diese Konzepte zeigt NaTex eine hohe Leistungsfähigkeit und übertrifft bisherige Methoden deutlich in Texturkohärenz und -ausrichtung. Darüber hinaus weist NaTex auch starke Generalisierungsfähigkeiten auf, entweder trainingsfrei oder mit einfacher Anpassung, für verschiedene Downstream-Anwendungen, wie z.B. Materialgenerierung, Texturverfeinerung sowie Teilsegmentierung und -texturierung.
English
We present NaTex, a native texture generation framework that predicts texture color directly in 3D space. In contrast to previous approaches that rely on baking 2D multi-view images synthesized by geometry-conditioned Multi-View Diffusion models (MVDs), NaTex avoids several inherent limitations of the MVD pipeline. These include difficulties in handling occluded regions that require inpainting, achieving precise mesh-texture alignment along boundaries, and maintaining cross-view consistency and coherence in both content and color intensity. NaTex features a novel paradigm that addresses the aforementioned issues by viewing texture as a dense color point cloud. Driven by this idea, we propose latent color diffusion, which comprises a geometry-awared color point cloud VAE and a multi-control diffusion transformer (DiT), entirely trained from scratch using 3D data, for texture reconstruction and generation. To enable precise alignment, we introduce native geometry control that conditions the DiT on direct 3D spatial information via positional embeddings and geometry latents. We co-design the VAE-DiT architecture, where the geometry latents are extracted via a dedicated geometry branch tightly coupled with the color VAE, providing fine-grained surface guidance that maintains strong correspondence with the texture. With these designs, NaTex demonstrates strong performance, significantly outperforming previous methods in texture coherence and alignment. Moreover, NaTex also exhibits strong generalization capabilities, either training-free or with simple tuning, for various downstream applications, e.g., material generation, texture refinement, and part segmentation and texturing.