TEXGen: een Generatief Diffusie Model voor Mesh Texturen
TEXGen: a Generative Diffusion Model for Mesh Textures
November 22, 2024
Auteurs: Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
cs.AI
Samenvatting
Hoewel hoogwaardige textuurkaarten essentieel zijn voor realistische 3D-assetweergave, hebben maar weinig studies onderzocht om rechtstreeks te leren in de textuurruimte, vooral op grootschalige datasets. In dit werk wijken we af van de conventionele benadering van vertrouwen op vooraf getrainde 2D-diffusiemodellen voor optimalisatie van 3D-texturen op testtijd. In plaats daarvan richten we ons op het fundamentele probleem van leren in de UV-textuurruiimte zelf. Voor het eerst trainen we een groot diffusiemodel dat in staat is om op een feedforward manier direct hoogwaardige textuurkaarten te genereren. Om efficiënt leren in UV-ruimtes met hoge resolutie te vergemakkelijken, stellen we een schaalbare netwerkarchitectuur voor die convoluties op UV-kaarten afwisselt met aandachtlagen op puntenwolken. Door gebruik te maken van dit architectonisch ontwerp trainen we een diffusiemodel met 700 miljoen parameters dat UV-textuurkaarten kan genereren die worden geleid door tekstprompts en enkelvoudige beeldweergaven. Eenmaal getraind, ondersteunt ons model natuurlijk diverse uitgebreide toepassingen, waaronder textuurinpainting geleid door tekst, voltooiing van textuur bij spaarzame weergaven, en door tekst gestuurde textuursynthese. De projectpagina is te vinden op http://cvmi-lab.github.io/TEXGen/.
English
While high-quality texture maps are essential for realistic 3D asset
rendering, few studies have explored learning directly in the texture space,
especially on large-scale datasets. In this work, we depart from the
conventional approach of relying on pre-trained 2D diffusion models for
test-time optimization of 3D textures. Instead, we focus on the fundamental
problem of learning in the UV texture space itself. For the first time, we
train a large diffusion model capable of directly generating high-resolution
texture maps in a feed-forward manner. To facilitate efficient learning in
high-resolution UV spaces, we propose a scalable network architecture that
interleaves convolutions on UV maps with attention layers on point clouds.
Leveraging this architectural design, we train a 700 million parameter
diffusion model that can generate UV texture maps guided by text prompts and
single-view images. Once trained, our model naturally supports various extended
applications, including text-guided texture inpainting, sparse-view texture
completion, and text-driven texture synthesis. Project page is at
http://cvmi-lab.github.io/TEXGen/.Summary
AI-Generated Summary