Relumière complète : Relighting et harmonisation monoscopique généralisables et cohérents pour les personnages humains
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
April 3, 2025
Auteurs: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI
Résumé
Cet article présente Comprehensive Relighting, la première approche tout-en-un capable de contrôler et d'harmoniser l'éclairage à partir d'une image ou d'une vidéo de personnes avec des parties du corps arbitraires dans n'importe quelle scène. La construction d'un modèle aussi généralisable est extrêmement difficile en raison du manque de jeux de données, ce qui limite les modèles de relighting basés sur l'image à des scénarios spécifiques (par exemple, le visage ou une personne statique). Pour relever ce défi, nous réutilisons un modèle de diffusion pré-entraîné comme priorité d'image générale et modélisons conjointement le relighting humain et l'harmonisation de l'arrière-plan dans un cadre grossier-à-fin. Pour améliorer davantage la cohérence temporelle du relighting, nous introduisons un modèle d'éclairage temporel non supervisé qui apprend la cohérence cyclique de l'éclairage à partir de nombreuses vidéos du monde réel sans aucune vérité terrain. Au moment de l'inférence, notre module d'éclairage temporel est combiné aux modèles de diffusion via des algorithmes de fusion spatio-temporelle sans entraînement supplémentaire ; et nous appliquons un nouveau raffinement guidé comme post-traitement pour préserver les détails haute fréquence de l'image d'entrée. Dans les expériences, Comprehensive Relighting démontre une forte généralisabilité et une cohérence temporelle de l'éclairage, surpassant les méthodes existantes de relighting et d'harmonisation humaines basées sur l'image.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach
that can both control and harmonize the lighting from an image or video of
humans with arbitrary body parts from any scene. Building such a generalizable
model is extremely challenging due to the lack of dataset, restricting existing
image-based relighting models to a specific scenario (e.g., face or static
human). To address this challenge, we repurpose a pre-trained diffusion model
as a general image prior and jointly model the human relighting and background
harmonization in the coarse-to-fine framework. To further enhance the temporal
coherence of the relighting, we introduce an unsupervised temporal lighting
model that learns the lighting cycle consistency from many real-world videos
without any ground truth. In inference time, our temporal lighting module is
combined with the diffusion models through the spatio-temporal feature blending
algorithms without extra training; and we apply a new guided refinement as a
post-processing to preserve the high-frequency details from the input image. In
the experiments, Comprehensive Relighting shows a strong generalizability and
lighting temporal coherence, outperforming existing image-based human
relighting and harmonization methods.Summary
AI-Generated Summary