NaTex: Бесшовная генерация текстур как диффузия в латентном пространстве цветов

Аннотация

Мы представляем NaTex — фреймворк для нативной генерации текстур, который предсказывает цвет текстуры непосредственно в 3D-пространстве. В отличие от предыдущих подходов, основанных на запекании 2D-изображений с нескольких ракурсов, синтезированных геометрически-условными моделями мультивидовой диффузии (MVD), NaTex избегает ряда присущих MVD-конвейеру ограничений. К ним относятся сложности обработки загороженных областей, требующих дорисовки, достижения точного совмещения сетки и текстуры вдоль границ, а также поддержания межвидовой согласованности и целостности как содержания, так и интенсивности цвета. NaTex предлагает новую парадигму, решающую указанные проблемы за счет рассмотрения текстуры как плотного цветового облака точек. Руководствуясь этой идеей, мы предлагаем латентную цветовую диффузию, которая включает геометрически-осведомленный VAE для цветового облака точек и диффузионный трансформер (DiT) с множественным управлением, полностью обученные с нуля на 3D-данных для реконструкции и генерации текстур. Для обеспечения точного выравнивания мы вводим нативный геометрический контроль, который обусловливает DiT прямой 3D-пространственной информацией через позиционные эмбеддинги и геометрические латенты. Мы совместно проектируем архитектуру VAE-DiT, где геометрические латенты извлекаются с помощью выделенной геометрической ветви, тесно связанной с цветовым VAE, что обеспечивает детальное поверхностное руководство, сохраняющее строгое соответствие с текстурой. Благодаря этим решениям NaTex демонстрирует высокую производительность, значительно превосходя предыдущие методы по согласованности текстур и точности выравнивания. Более того, NaTex также проявляет сильные способности к обобщению, либо без дообучения, либо с простой настройкой, для различных прикладных задач, таких как генерация материалов, уточнение текстур, а также сегментация частей и их текстурирование.

English

We present NaTex, a native texture generation framework that predicts texture color directly in 3D space. In contrast to previous approaches that rely on baking 2D multi-view images synthesized by geometry-conditioned Multi-View Diffusion models (MVDs), NaTex avoids several inherent limitations of the MVD pipeline. These include difficulties in handling occluded regions that require inpainting, achieving precise mesh-texture alignment along boundaries, and maintaining cross-view consistency and coherence in both content and color intensity. NaTex features a novel paradigm that addresses the aforementioned issues by viewing texture as a dense color point cloud. Driven by this idea, we propose latent color diffusion, which comprises a geometry-awared color point cloud VAE and a multi-control diffusion transformer (DiT), entirely trained from scratch using 3D data, for texture reconstruction and generation. To enable precise alignment, we introduce native geometry control that conditions the DiT on direct 3D spatial information via positional embeddings and geometry latents. We co-design the VAE-DiT architecture, where the geometry latents are extracted via a dedicated geometry branch tightly coupled with the color VAE, providing fine-grained surface guidance that maintains strong correspondence with the texture. With these designs, NaTex demonstrates strong performance, significantly outperforming previous methods in texture coherence and alignment. Moreover, NaTex also exhibits strong generalization capabilities, either training-free or with simple tuning, for various downstream applications, e.g., material generation, texture refinement, and part segmentation and texturing.

NaTex: Бесшовная генерация текстур как диффузия в латентном пространстве цветов

NaTex: Seamless Texture Generation as Latent Color Diffusion

Аннотация

Support