ChatPaper.aiChatPaper

Neural Gaffer: Reiluminação de Qualquer Objeto via Difusão

Neural Gaffer: Relighting Any Object via Diffusion

June 11, 2024
Autores: Haian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely
cs.AI

Resumo

A reluminação de imagem única é uma tarefa desafiadora que envolve o raciocínio sobre a complexa interação entre geometria, materiais e iluminação. Muitos métodos anteriores suportam apenas categorias específicas de imagens, como retratos, ou exigem condições de captura especiais, como o uso de uma lanterna. Alternativamente, alguns métodos decompõem explicitamente uma cena em componentes intrínsecos, como normais e BRDFs, que podem ser imprecisos ou pouco expressivos. Neste trabalho, propomos um novo modelo de difusão 2D de reluminação de ponta a ponta, chamado Neural Gaffer, que recebe uma única imagem de qualquer objeto e pode sintetizar uma imagem reluminada precisa e de alta qualidade sob qualquer nova condição de iluminação ambiental, simplesmente condicionando um gerador de imagens em um mapa de ambiente alvo, sem uma decomposição explícita da cena. Nosso método se baseia em um modelo de difusão pré-treinado e o ajusta em um conjunto de dados sintético de reluminação, revelando e aproveitando o entendimento inerente de iluminação presente no modelo de difusão. Avaliamos nosso modelo tanto em imagens sintéticas quanto em imagens da Internet capturadas em cenários reais, demonstrando suas vantagens em termos de generalização e precisão. Além disso, ao combinar com outros métodos generativos, nosso modelo possibilita muitas tarefas 2D subsequentes, como reluminação baseada em texto e inserção de objetos. Nosso modelo também pode funcionar como um forte prior de reluminação para tarefas 3D, como a reluminação de um campo de radiação.
English
Single-image relighting is a challenging task that involves reasoning about the complex interplay between geometry, materials, and lighting. Many prior methods either support only specific categories of images, such as portraits, or require special capture conditions, like using a flashlight. Alternatively, some methods explicitly decompose a scene into intrinsic components, such as normals and BRDFs, which can be inaccurate or under-expressive. In this work, we propose a novel end-to-end 2D relighting diffusion model, called Neural Gaffer, that takes a single image of any object and can synthesize an accurate, high-quality relit image under any novel environmental lighting condition, simply by conditioning an image generator on a target environment map, without an explicit scene decomposition. Our method builds on a pre-trained diffusion model, and fine-tunes it on a synthetic relighting dataset, revealing and harnessing the inherent understanding of lighting present in the diffusion model. We evaluate our model on both synthetic and in-the-wild Internet imagery and demonstrate its advantages in terms of generalization and accuracy. Moreover, by combining with other generative methods, our model enables many downstream 2D tasks, such as text-based relighting and object insertion. Our model can also operate as a strong relighting prior for 3D tasks, such as relighting a radiance field.
PDF62December 8, 2024