ChatPaper.aiChatPaper

TEXGen: un Modelo Generativo de Difusión para Texturas de Malla

TEXGen: a Generative Diffusion Model for Mesh Textures

November 22, 2024
Autores: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI

Resumen

Si bien los mapas de texturas de alta calidad son esenciales para la renderización realista de activos 3D, pocos estudios han explorado el aprendizaje directamente en el espacio de texturas, especialmente en conjuntos de datos a gran escala. En este trabajo, nos apartamos del enfoque convencional de depender de modelos de difusión 2D pre-entrenados para la optimización en tiempo de prueba de texturas 3D. En su lugar, nos centramos en el problema fundamental de aprender en el espacio de textura UV en sí mismo. Por primera vez, entrenamos un gran modelo de difusión capaz de generar directamente mapas de texturas de alta resolución de manera feed-forward. Para facilitar un aprendizaje eficiente en espacios UV de alta resolución, proponemos una arquitectura de red escalable que entrelaza convoluciones en mapas UV con capas de atención en nubes de puntos. Aprovechando este diseño arquitectónico, entrenamos un modelo de difusión con 700 millones de parámetros que puede generar mapas de texturas UV guiados por indicaciones de texto e imágenes de una sola vista. Una vez entrenado, nuestro modelo admite naturalmente varias aplicaciones extendidas, incluyendo el relleno de texturas guiado por texto, la completación de texturas de vista escasa y la síntesis de texturas impulsada por texto. La página del proyecto se encuentra en http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset rendering, few studies have explored learning directly in the texture space, especially on large-scale datasets. In this work, we depart from the conventional approach of relying on pre-trained 2D diffusion models for test-time optimization of 3D textures. Instead, we focus on the fundamental problem of learning in the UV texture space itself. For the first time, we train a large diffusion model capable of directly generating high-resolution texture maps in a feed-forward manner. To facilitate efficient learning in high-resolution UV spaces, we propose a scalable network architecture that interleaves convolutions on UV maps with attention layers on point clouds. Leveraging this architectural design, we train a 700 million parameter diffusion model that can generate UV texture maps guided by text prompts and single-view images. Once trained, our model naturally supports various extended applications, including text-guided texture inpainting, sparse-view texture completion, and text-driven texture synthesis. Project page is at http://cvmi-lab.github.io/TEXGen/.

Summary

AI-Generated Summary

PDF122November 27, 2024