TEXGen: een Generatief Diffusie Model voor Mesh Texturen

Samenvatting

Hoewel hoogwaardige textuurkaarten essentieel zijn voor realistische 3D-assetweergave, hebben maar weinig studies onderzocht om rechtstreeks te leren in de textuurruimte, vooral op grootschalige datasets. In dit werk wijken we af van de conventionele benadering van vertrouwen op vooraf getrainde 2D-diffusiemodellen voor optimalisatie van 3D-texturen op testtijd. In plaats daarvan richten we ons op het fundamentele probleem van leren in de UV-textuurruiimte zelf. Voor het eerst trainen we een groot diffusiemodel dat in staat is om op een feedforward manier direct hoogwaardige textuurkaarten te genereren. Om efficiënt leren in UV-ruimtes met hoge resolutie te vergemakkelijken, stellen we een schaalbare netwerkarchitectuur voor die convoluties op UV-kaarten afwisselt met aandachtlagen op puntenwolken. Door gebruik te maken van dit architectonisch ontwerp trainen we een diffusiemodel met 700 miljoen parameters dat UV-textuurkaarten kan genereren die worden geleid door tekstprompts en enkelvoudige beeldweergaven. Eenmaal getraind, ondersteunt ons model natuurlijk diverse uitgebreide toepassingen, waaronder textuurinpainting geleid door tekst, voltooiing van textuur bij spaarzame weergaven, en door tekst gestuurde textuursynthese. De projectpagina is te vinden op http://cvmi-lab.github.io/TEXGen/.

English

While high-quality texture maps are essential for realistic 3D asset rendering, few studies have explored learning directly in the texture space, especially on large-scale datasets. In this work, we depart from the conventional approach of relying on pre-trained 2D diffusion models for test-time optimization of 3D textures. Instead, we focus on the fundamental problem of learning in the UV texture space itself. For the first time, we train a large diffusion model capable of directly generating high-resolution texture maps in a feed-forward manner. To facilitate efficient learning in high-resolution UV spaces, we propose a scalable network architecture that interleaves convolutions on UV maps with attention layers on point clouds. Leveraging this architectural design, we train a 700 million parameter diffusion model that can generate UV texture maps guided by text prompts and single-view images. Once trained, our model naturally supports various extended applications, including text-guided texture inpainting, sparse-view texture completion, and text-driven texture synthesis. Project page is at http://cvmi-lab.github.io/TEXGen/.

TEXGen: een Generatief Diffusie Model voor Mesh Texturen

TEXGen: a Generative Diffusion Model for Mesh Textures

Samenvatting

Summary

Support

Support