Reluminação Abrangente: Reluminação e Harmonização Monocular de Humanos Generalizável e Consistente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
April 3, 2025
Autores: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI
Resumo
Este artigo apresenta o Comprehensive Relighting, a primeira abordagem abrangente que pode tanto controlar quanto harmonizar a iluminação de uma imagem ou vídeo de humanos com partes do corpo arbitrárias em qualquer cena. Construir um modelo tão generalizável é extremamente desafiador devido à falta de conjuntos de dados, o que restringe os modelos existentes de relighting baseados em imagem a cenários específicos (por exemplo, rosto ou humano estático). Para enfrentar esse desafio, reaproveitamos um modelo de difusão pré-treinado como um prior geral de imagem e modelamos conjuntamente o relighting humano e a harmonização do plano de fundo em uma estrutura de refinamento progressivo. Para aprimorar ainda mais a coerência temporal do relighting, introduzimos um modelo de iluminação temporal não supervisionado que aprende a consistência do ciclo de iluminação a partir de diversos vídeos do mundo real, sem qualquer dado de referência. No momento da inferência, nosso módulo de iluminação temporal é combinado com os modelos de difusão por meio de algoritmos de mesclagem de características espaço-temporais, sem treinamento adicional; e aplicamos um novo refinamento guiado como pós-processamento para preservar os detalhes de alta frequência da imagem de entrada. Nos experimentos, o Comprehensive Relighting demonstra uma forte generalizabilidade e coerência temporal de iluminação, superando os métodos existentes de relighting e harmonização humana baseados em imagem.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach
that can both control and harmonize the lighting from an image or video of
humans with arbitrary body parts from any scene. Building such a generalizable
model is extremely challenging due to the lack of dataset, restricting existing
image-based relighting models to a specific scenario (e.g., face or static
human). To address this challenge, we repurpose a pre-trained diffusion model
as a general image prior and jointly model the human relighting and background
harmonization in the coarse-to-fine framework. To further enhance the temporal
coherence of the relighting, we introduce an unsupervised temporal lighting
model that learns the lighting cycle consistency from many real-world videos
without any ground truth. In inference time, our temporal lighting module is
combined with the diffusion models through the spatio-temporal feature blending
algorithms without extra training; and we apply a new guided refinement as a
post-processing to preserve the high-frequency details from the input image. In
the experiments, Comprehensive Relighting shows a strong generalizability and
lighting temporal coherence, outperforming existing image-based human
relighting and harmonization methods.Summary
AI-Generated Summary