TEXGen: генеративная диффузионная модель для текстур сеток
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Авторы: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Аннотация
Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D-моделей, немногие исследования занимались обучением непосредственно в пространстве текстур, особенно на крупномасштабных наборах данных. В данной работе мы отходим от традиционного подхода, основанного на использовании заранее обученных 2D моделей диффузии для оптимизации текстур 3D-моделей во время тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в пространстве UV-текстур. Впервые мы обучаем большую модель диффузии, способную непосредственно генерировать текстурные карты высокого разрешения в прямом порядке. Для облегчения эффективного обучения в пространствах UV большого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свертки на UV-картах с слоями внимания на облаках точек. Используя этот архитектурный дизайн, мы обучаем модель диффузии с 700 миллионами параметров, способную генерировать текстурные карты UV, управляемые текстовыми подсказками и изображениями с одним видом. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая заполнение текстур по текстовым подсказкам, завершение текстур для разреженных видов и синтез текстур под управлением текста. Страница проекта находится по адресу http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary