Paint3D: Pintando Qualquer Coisa em 3D com Modelos de Difusão de Textura sem Iluminação

Resumo

Este artigo apresenta o Paint3D, uma nova estrutura generativa de abordagem grossa-para-fina que é capaz de produzir mapas de textura UV 2K de alta resolução, sem iluminação e diversos para malhas 3D não texturizadas, condicionadas por entradas de texto ou imagem. O principal desafio abordado é a geração de texturas de alta qualidade sem informações de iluminação embutidas, o que permite que as texturas sejam reiluminadas ou reeditadas em pipelines gráficos modernos. Para alcançar isso, nosso método primeiro utiliza um modelo de difusão 2D pré-treinado e consciente da profundidade para gerar imagens condicionadas à visão e realizar a fusão de texturas multi-visão, produzindo um mapa de textura inicial grosseiro. No entanto, como modelos 2D não podem representar totalmente formas 3D e desabilitam efeitos de iluminação, o mapa de textura grosseiro exibe áreas incompletas e artefatos de iluminação. Para resolver isso, treinamos modelos de difusão UV Inpainting e UVHD especializados no refinamento consciente da forma de áreas incompletas e na remoção de artefatos de iluminação. Através desse processo de abordagem grossa-para-fina, o Paint3D pode produzir texturas UV 2K de alta qualidade que mantêm consistência semântica enquanto são livres de iluminação, avançando significativamente o estado da arte na texturização de objetos 3D.

English

This paper presents Paint3D, a novel coarse-to-fine generative framework that is capable of producing high-resolution, lighting-less, and diverse 2K UV texture maps for untextured 3D meshes conditioned on text or image inputs. The key challenge addressed is generating high-quality textures without embedded illumination information, which allows the textures to be re-lighted or re-edited within modern graphics pipelines. To achieve this, our method first leverages a pre-trained depth-aware 2D diffusion model to generate view-conditional images and perform multi-view texture fusion, producing an initial coarse texture map. However, as 2D models cannot fully represent 3D shapes and disable lighting effects, the coarse texture map exhibits incomplete areas and illumination artifacts. To resolve this, we train separate UV Inpainting and UVHD diffusion models specialized for the shape-aware refinement of incomplete areas and the removal of illumination artifacts. Through this coarse-to-fine process, Paint3D can produce high-quality 2K UV textures that maintain semantic consistency while being lighting-less, significantly advancing the state-of-the-art in texturing 3D objects.

Paint3D: Pintando Qualquer Coisa em 3D com Modelos de Difusão de Textura sem Iluminação

Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models

Resumo

Support