ChatPaper.aiChatPaper

Reluminação Abrangente: Reluminação e Harmonização Monocular de Humanos Generalizável e Consistente

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

April 3, 2025
Autores: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI

Resumo

Este artigo apresenta o Comprehensive Relighting, a primeira abordagem abrangente que pode tanto controlar quanto harmonizar a iluminação de uma imagem ou vídeo de humanos com partes do corpo arbitrárias em qualquer cena. Construir um modelo tão generalizável é extremamente desafiador devido à falta de conjuntos de dados, o que restringe os modelos existentes de relighting baseados em imagem a cenários específicos (por exemplo, rosto ou humano estático). Para enfrentar esse desafio, reaproveitamos um modelo de difusão pré-treinado como um prior geral de imagem e modelamos conjuntamente o relighting humano e a harmonização do plano de fundo em uma estrutura de refinamento progressivo. Para aprimorar ainda mais a coerência temporal do relighting, introduzimos um modelo de iluminação temporal não supervisionado que aprende a consistência do ciclo de iluminação a partir de diversos vídeos do mundo real, sem qualquer dado de referência. No momento da inferência, nosso módulo de iluminação temporal é combinado com os modelos de difusão por meio de algoritmos de mesclagem de características espaço-temporais, sem treinamento adicional; e aplicamos um novo refinamento guiado como pós-processamento para preservar os detalhes de alta frequência da imagem de entrada. Nos experimentos, o Comprehensive Relighting demonstra uma forte generalizabilidade e coerência temporal de iluminação, superando os métodos existentes de relighting e harmonização humana baseados em imagem.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Summary

AI-Generated Summary

PDF102April 7, 2025