ChatPaper.aiChatPaper

Reluminación Integral: Reluminación y Armonización Monocular de Humanos Generalizable y Consistente

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

April 3, 2025
Autores: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI

Resumen

Este artículo presenta Comprehensive Relighting, el primer enfoque integral que puede controlar y armonizar la iluminación de una imagen o video de humanos con partes del cuerpo arbitrarias en cualquier escena. Construir un modelo tan generalizable es extremadamente desafiante debido a la falta de conjuntos de datos, lo que restringe los modelos existentes de reiluminación basados en imágenes a escenarios específicos (por ejemplo, rostros o humanos estáticos). Para abordar este desafío, reutilizamos un modelo de difusión preentrenado como un prior general de imágenes y modelamos conjuntamente la reiluminación humana y la armonización del fondo en un marco de trabajo de coarse-to-fine. Para mejorar aún más la coherencia temporal de la reiluminación, introducimos un modelo temporal de iluminación no supervisado que aprende la consistencia del ciclo de iluminación a partir de muchos videos del mundo real sin necesidad de datos de referencia. En el tiempo de inferencia, nuestro módulo de iluminación temporal se combina con los modelos de difusión a través de algoritmos de mezcla de características espacio-temporales sin entrenamiento adicional; y aplicamos un nuevo refinamiento guiado como post-procesamiento para preservar los detalles de alta frecuencia de la imagen de entrada. En los experimentos, Comprehensive Relighting demuestra una fuerte generalización y coherencia temporal de la iluminación, superando a los métodos existentes de reiluminación y armonización humana basados en imágenes.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Summary

AI-Generated Summary

PDF102April 7, 2025