ChatPaper.aiChatPaper

Umfassende Neubeleuchtung: Generalisierbare und konsistente monokulare Neubeleuchtung und Harmonisierung von Menschen

Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization

April 3, 2025
Autoren: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI

Zusammenfassung

Dieses Papier stellt Comprehensive Relighting vor, den ersten All-in-One-Ansatz, der sowohl die Beleuchtung von Bildern oder Videos von Menschen mit beliebigen Körperteilen aus jeder Szene steuern als auch harmonisieren kann. Die Entwicklung eines solchen generalisierbaren Modells ist äußerst anspruchsvoll, da es an geeigneten Datensätzen mangelt, was bestehende bildbasierte Beleuchtungsmodelle auf spezifische Szenarien (z. B. Gesicht oder statische Menschen) beschränkt. Um diese Herausforderung zu bewältigen, nutzen wir ein vortrainiertes Diffusionsmodell als allgemeines Bildprior und modellieren die Beleuchtung des Menschen und die Hintergrundharmonisierung gemeinsam in einem grob-zu-fein-Framework. Um die zeitliche Kohärenz der Beleuchtung weiter zu verbessern, führen wir ein unüberwachtes zeitliches Beleuchtungsmodell ein, das die Beleuchtungszykluskonsistenz aus vielen realen Videos ohne jegliche Ground-Truth-Daten lernt. Zur Inferenzzeit wird unser zeitliches Beleuchtungsmodul durch raumzeitliche Feature-Blending-Algorithmen mit den Diffusionsmodellen kombiniert, ohne zusätzliches Training; und wir wenden eine neue geführte Verfeinerung als Nachbearbeitung an, um die hochfrequenten Details des Eingabebildes zu bewahren. In den Experimenten zeigt Comprehensive Relighting eine starke Generalisierbarkeit und zeitliche Beleuchtungskohärenz und übertrifft damit bestehende bildbasierte Methoden zur Beleuchtung und Harmonisierung von Menschen.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach that can both control and harmonize the lighting from an image or video of humans with arbitrary body parts from any scene. Building such a generalizable model is extremely challenging due to the lack of dataset, restricting existing image-based relighting models to a specific scenario (e.g., face or static human). To address this challenge, we repurpose a pre-trained diffusion model as a general image prior and jointly model the human relighting and background harmonization in the coarse-to-fine framework. To further enhance the temporal coherence of the relighting, we introduce an unsupervised temporal lighting model that learns the lighting cycle consistency from many real-world videos without any ground truth. In inference time, our temporal lighting module is combined with the diffusion models through the spatio-temporal feature blending algorithms without extra training; and we apply a new guided refinement as a post-processing to preserve the high-frequency details from the input image. In the experiments, Comprehensive Relighting shows a strong generalizability and lighting temporal coherence, outperforming existing image-based human relighting and harmonization methods.

Summary

AI-Generated Summary

PDF102April 7, 2025