Neural Gaffer: Rilluminazione di Oggetti tramite Diffusione
Neural Gaffer: Relighting Any Object via Diffusion
June 11, 2024
Autori: Haian Jin, Yuan Li, Fujun Luan, Yuanbo Xiangli, Sai Bi, Kai Zhang, Zexiang Xu, Jin Sun, Noah Snavely
cs.AI
Abstract
La riluminazione da singola immagine è un compito impegnativo che richiede la comprensione dell'interazione complessa tra geometria, materiali e illuminazione. Molti metodi precedenti supportano solo categorie specifiche di immagini, come i ritratti, o richiedono condizioni di acquisizione particolari, come l'uso di una torcia. In alternativa, alcuni metodi scompongono esplicitamente una scena in componenti intrinseche, come le normali e le BRDF, che possono essere imprecise o poco espressive. In questo lavoro, proponiamo un nuovo modello di diffusione end-to-end 2D per la riluminazione, chiamato Neural Gaffer, che prende una singola immagine di qualsiasi oggetto e può sintetizzare un'immagine riluminata accurata e di alta qualità sotto qualsiasi nuova condizione di illuminazione ambientale, semplicemente condizionando un generatore di immagini su una mappa ambientale target, senza una scomposizione esplicita della scena. Il nostro metodo si basa su un modello di diffusione pre-addestrato, che viene perfezionato su un dataset sintetico di riluminazione, rivelando e sfruttando la comprensione intrinseca dell'illuminazione presente nel modello di diffusione. Valutiamo il nostro modello sia su immagini sintetiche che su immagini reali provenienti da Internet e ne dimostriamo i vantaggi in termini di generalizzazione e accuratezza. Inoltre, combinando il nostro modello con altri metodi generativi, è possibile abilitare numerosi compiti 2D a valle, come la riluminazione basata su testo e l'inserimento di oggetti. Il nostro modello può anche fungere da forte prior per la riluminazione in compiti 3D, come la riluminazione di un campo di radianza.
English
Single-image relighting is a challenging task that involves reasoning about
the complex interplay between geometry, materials, and lighting. Many prior
methods either support only specific categories of images, such as portraits,
or require special capture conditions, like using a flashlight. Alternatively,
some methods explicitly decompose a scene into intrinsic components, such as
normals and BRDFs, which can be inaccurate or under-expressive. In this work,
we propose a novel end-to-end 2D relighting diffusion model, called Neural
Gaffer, that takes a single image of any object and can synthesize an accurate,
high-quality relit image under any novel environmental lighting condition,
simply by conditioning an image generator on a target environment map, without
an explicit scene decomposition. Our method builds on a pre-trained diffusion
model, and fine-tunes it on a synthetic relighting dataset, revealing and
harnessing the inherent understanding of lighting present in the diffusion
model. We evaluate our model on both synthetic and in-the-wild Internet imagery
and demonstrate its advantages in terms of generalization and accuracy.
Moreover, by combining with other generative methods, our model enables many
downstream 2D tasks, such as text-based relighting and object insertion. Our
model can also operate as a strong relighting prior for 3D tasks, such as
relighting a radiance field.