ControlMat: Uma Abordagem Generativa Controlada para Captura de Materiais
ControlMat: A Controlled Generative Approach to Material Capture
September 4, 2023
Autores: Giuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur
cs.AI
Resumo
A reconstrução de materiais a partir de uma fotografia é um componente fundamental para a democratização da criação de conteúdo 3D. Propomos formular esse problema mal definido como uma síntese controlada, aproveitando os recentes avanços em redes neurais profundas generativas. Apresentamos o ControlMat, um método que, dada uma única fotografia com iluminação não controlada como entrada, condiciona um modelo de difusão para gerar materiais digitais plausíveis, repetíveis, de alta resolução e baseados em física. Analisamos cuidadosamente o comportamento dos modelos de difusão para saídas multicanal, adaptamos o processo de amostragem para fundir informações em múltiplas escalas e introduzimos a difusão enrolada para permitir tanto a repetibilidade quanto a difusão em patches para saídas de alta resolução. Nossa abordagem generativa ainda permite a exploração de uma variedade de materiais que poderiam corresponder à imagem de entrada, mitigando as condições de iluminação desconhecidas. Demonstramos que nossa abordagem supera métodos recentes de inferência e otimização no espaço latente, e validamos cuidadosamente as escolhas de design do nosso processo de difusão. Materiais suplementares e detalhes adicionais estão disponíveis em: https://gvecchio.com/controlmat/.
English
Material reconstruction from a photograph is a key component of 3D content
creation democratization. We propose to formulate this ill-posed problem as a
controlled synthesis one, leveraging the recent progress in generative deep
networks. We present ControlMat, a method which, given a single photograph with
uncontrolled illumination as input, conditions a diffusion model to generate
plausible, tileable, high-resolution physically-based digital materials. We
carefully analyze the behavior of diffusion models for multi-channel outputs,
adapt the sampling process to fuse multi-scale information and introduce rolled
diffusion to enable both tileability and patched diffusion for high-resolution
outputs. Our generative approach further permits exploration of a variety of
materials which could correspond to the input image, mitigating the unknown
lighting conditions. We show that our approach outperforms recent inference and
latent-space-optimization methods, and carefully validate our diffusion process
design choices. Supplemental materials and additional details are available at:
https://gvecchio.com/controlmat/.