Reluminación Integral: Reluminación y Armonización Monocular de Humanos Generalizable y Consistente

Resumen

Este artículo presenta Comprehensive Relighting, el primer enfoque integral que puede controlar y armonizar la iluminación de una imagen o video de humanos con partes del cuerpo arbitrarias en cualquier escena. Construir un modelo tan generalizable es extremadamente desafiante debido a la falta de conjuntos de datos, lo que restringe los modelos existentes de reiluminación basados en imágenes a escenarios específicos (por ejemplo, rostros o humanos estáticos). Para abordar este desafío, reutilizamos un modelo de difusión preentrenado como un prior general de imágenes y modelamos conjuntamente la reiluminación humana y la armonización del fondo en un marco de trabajo de coarse-to-fine. Para mejorar aún más la coherencia temporal de la reiluminación, introducimos un modelo temporal de iluminación no supervisado que aprende la consistencia del ciclo de iluminación a partir de muchos videos del mundo real sin necesidad de datos de referencia. En el tiempo de inferencia, nuestro módulo de iluminación temporal se combina con los modelos de difusión a través de algoritmos de mezcla de características espacio-temporales sin entrenamiento adicional; y aplicamos un nuevo refinamiento guiado como post-procesamiento para preservar los detalles de alta frecuencia de la imagen de entrada. En los experimentos, Comprehensive Relighting demuestra una fuerte generalización y coherencia temporal de la iluminación, superando a los métodos existentes de reiluminación y armonización humana basados en imágenes.

English

This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Reluminación Integral: Reluminación y Armonización Monocular de Humanos Generalizable y Consistente

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

Resumen

Support