Reluminação Abrangente: Reluminação e Harmonização Monocular de Humanos Generalizável e Consistente

Resumo

Este artigo apresenta o Comprehensive Relighting, a primeira abordagem abrangente que pode tanto controlar quanto harmonizar a iluminação de uma imagem ou vídeo de humanos com partes do corpo arbitrárias em qualquer cena. Construir um modelo tão generalizável é extremamente desafiador devido à falta de conjuntos de dados, o que restringe os modelos existentes de relighting baseados em imagem a cenários específicos (por exemplo, rosto ou humano estático). Para enfrentar esse desafio, reaproveitamos um modelo de difusão pré-treinado como um prior geral de imagem e modelamos conjuntamente o relighting humano e a harmonização do plano de fundo em uma estrutura de refinamento progressivo. Para aprimorar ainda mais a coerência temporal do relighting, introduzimos um modelo de iluminação temporal não supervisionado que aprende a consistência do ciclo de iluminação a partir de diversos vídeos do mundo real, sem qualquer dado de referência. No momento da inferência, nosso módulo de iluminação temporal é combinado com os modelos de difusão por meio de algoritmos de mesclagem de características espaço-temporais, sem treinamento adicional; e aplicamos um novo refinamento guiado como pós-processamento para preservar os detalhes de alta frequência da imagem de entrada. Nos experimentos, o Comprehensive Relighting demonstra uma forte generalizabilidade e coerência temporal de iluminação, superando os métodos existentes de relighting e harmonização humana baseados em imagem.

English

This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Reluminação Abrangente: Reluminação e Harmonização Monocular de Humanos Generalizável e Consistente

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Resumo

Summary

Support

Support