Uitgebreide Herbelichting: Generaliseerbare en Consistente Monoculaire Herbelichting en Harmonisatie van Mensen

Samenvatting

Dit artikel introduceert Comprehensive Relighting, de eerste alles-in-één aanpak die zowel de belichting kan beheersen als harmoniseren van een afbeelding of video van mensen met willekeurige lichaamsdelen uit elke scène. Het bouwen van zo'n generaliseerbaar model is extreem uitdagend vanwege het gebrek aan datasets, wat bestaande op afbeeldingen gebaseerde relighting-modellen beperkt tot een specifiek scenario (bijv. gezicht of statisch mens). Om deze uitdaging aan te pakken, hergebruiken we een vooraf getraind diffusiemodel als een algemene afbeeldingsprior en modelleren we gezamenlijk de menselijke relighting en achtergrondharmonisatie in een coarse-to-fine raamwerk. Om de temporele coherentie van de relighting verder te verbeteren, introduceren we een ongesuperviseerd temporeel belichtingsmodel dat de belichtingscyclusconsistentie leert uit vele real-world video's zonder enige grondwaarheid. Tijdens de inferentie wordt ons temporele belichtingsmodule gecombineerd met de diffusiemodellen via spatio-temporele feature blending algoritmen zonder extra training; en passen we een nieuwe geleide verfijning toe als post-processing om de hoogfrequente details van de invoerafbeelding te behouden. In de experimenten toont Comprehensive Relighting een sterke generaliseerbaarheid en temporele belichtingscoherentie, en overtreft het bestaande op afbeeldingen gebaseerde menselijke relighting- en harmonisatiemethoden.

English

This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Uitgebreide Herbelichting: Generaliseerbare en Consistente Monoculaire Herbelichting en Harmonisatie van Mensen

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Samenvatting

Support