Paint3D: Dipingere qualsiasi oggetto 3D con modelli di diffusione di texture senza illuminazione
Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models
December 21, 2023
Autori: Xianfang Zeng, Xin Chen, Zhongqi Qi, Wen Liu, Zibo Zhao, Zhibin Wang, BIN FU, Yong Liu, Gang Yu
cs.AI
Abstract
Questo articolo presenta Paint3D, un innovativo framework generativo di tipo coarse-to-fine in grado di produrre mappe UV texture 2K ad alta risoluzione, prive di illuminazione e diversificate, per mesh 3D non texturizzate, condizionate da input testuali o immagini. La sfida principale affrontata è la generazione di texture di alta qualità senza informazioni di illuminazione incorporate, il che consente alle texture di essere ri-illuminate o rielaborate all'interno delle moderne pipeline grafiche. Per raggiungere questo obiettivo, il nostro metodo sfrutta inizialmente un modello di diffusione 2D pre-addestrato e consapevole della profondità per generare immagini condizionate alla vista e eseguire la fusione di texture multi-vista, producendo una mappa texture iniziale di tipo coarse. Tuttavia, poiché i modelli 2D non possono rappresentare completamente le forme 3D e disabilitano gli effetti di illuminazione, la mappa texture coarse presenta aree incomplete e artefatti di illuminazione. Per risolvere questo problema, addestriamo separatamente modelli di diffusione UV Inpainting e UVHD specializzati per il perfezionamento consapevole della forma delle aree incomplete e la rimozione degli artefatti di illuminazione. Attraverso questo processo coarse-to-fine, Paint3D è in grado di produrre texture UV 2K di alta qualità che mantengono la coerenza semantica pur essendo prive di illuminazione, rappresentando un significativo avanzamento dello stato dell'arte nella texturizzazione di oggetti 3D.
English
This paper presents Paint3D, a novel coarse-to-fine generative framework that
is capable of producing high-resolution, lighting-less, and diverse 2K UV
texture maps for untextured 3D meshes conditioned on text or image inputs. The
key challenge addressed is generating high-quality textures without embedded
illumination information, which allows the textures to be re-lighted or
re-edited within modern graphics pipelines. To achieve this, our method first
leverages a pre-trained depth-aware 2D diffusion model to generate
view-conditional images and perform multi-view texture fusion, producing an
initial coarse texture map. However, as 2D models cannot fully represent 3D
shapes and disable lighting effects, the coarse texture map exhibits incomplete
areas and illumination artifacts. To resolve this, we train separate UV
Inpainting and UVHD diffusion models specialized for the shape-aware refinement
of incomplete areas and the removal of illumination artifacts. Through this
coarse-to-fine process, Paint3D can produce high-quality 2K UV textures that
maintain semantic consistency while being lighting-less, significantly
advancing the state-of-the-art in texturing 3D objects.