Reluminación Integral: Reluminación y Armonización Monocular de Humanos Generalizable y Consistente
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
April 3, 2025
Autores: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI
Resumen
Este artículo presenta Comprehensive Relighting, el primer enfoque integral que puede controlar y armonizar la iluminación de una imagen o video de humanos con partes del cuerpo arbitrarias en cualquier escena. Construir un modelo tan generalizable es extremadamente desafiante debido a la falta de conjuntos de datos, lo que restringe los modelos existentes de reiluminación basados en imágenes a escenarios específicos (por ejemplo, rostros o humanos estáticos). Para abordar este desafío, reutilizamos un modelo de difusión preentrenado como un prior general de imágenes y modelamos conjuntamente la reiluminación humana y la armonización del fondo en un marco de trabajo de coarse-to-fine. Para mejorar aún más la coherencia temporal de la reiluminación, introducimos un modelo temporal de iluminación no supervisado que aprende la consistencia del ciclo de iluminación a partir de muchos videos del mundo real sin necesidad de datos de referencia. En el tiempo de inferencia, nuestro módulo de iluminación temporal se combina con los modelos de difusión a través de algoritmos de mezcla de características espacio-temporales sin entrenamiento adicional; y aplicamos un nuevo refinamiento guiado como post-procesamiento para preservar los detalles de alta frecuencia de la imagen de entrada. En los experimentos, Comprehensive Relighting demuestra una fuerte generalización y coherencia temporal de la iluminación, superando a los métodos existentes de reiluminación y armonización humana basados en imágenes.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach
that can both control and harmonize the lighting from an image or video of
humans with arbitrary body parts from any scene. Building such a generalizable
model is extremely challenging due to the lack of dataset, restricting existing
image-based relighting models to a specific scenario (e.g., face or static
human). To address this challenge, we repurpose a pre-trained diffusion model
as a general image prior and jointly model the human relighting and background
harmonization in the coarse-to-fine framework. To further enhance the temporal
coherence of the relighting, we introduce an unsupervised temporal lighting
model that learns the lighting cycle consistency from many real-world videos
without any ground truth. In inference time, our temporal lighting module is
combined with the diffusion models through the spatio-temporal feature blending
algorithms without extra training; and we apply a new guided refinement as a
post-processing to preserve the high-frequency details from the input image. In
the experiments, Comprehensive Relighting shows a strong generalizability and
lighting temporal coherence, outperforming existing image-based human
relighting and harmonization methods.Summary
AI-Generated Summary