Комплексное переосвещение: Обобщаемое и согласованное монохромное переосвещение и гармонизация изображений человека
Comprehensive Relighting: Generalizable and Consistent Monocular Human Relighting and Harmonization
April 3, 2025
Авторы: Junying Wang, Jingyuan Liu, Xin Sun, Krishna Kumar Singh, Zhixin Shu, He Zhang, Jimei Yang, Nanxuan Zhao, Tuanfeng Y. Wang, Simon S. Chen, Ulrich Neumann, Jae Shin Yoon
cs.AI
Аннотация
В данной работе представлен метод Comprehensive Relighting — первый универсальный подход, который позволяет как управлять, так и гармонизировать освещение на изображении или видео людей с произвольными частями тела в любом сцене. Создание такой обобщаемой модели является крайне сложной задачей из-за отсутствия подходящих наборов данных, что ограничивает существующие методы переосвещения на основе изображений конкретными сценариями (например, лицо или статичный человек). Для решения этой проблемы мы адаптируем предварительно обученную диффузионную модель в качестве общего априорного представления изображения и совместно моделируем переосвещение человека и гармонизацию фона в рамках подхода от грубого к детальному. Для дальнейшего улучшения временной согласованности переосвещения мы вводим неконтролируемую временную модель освещения, которая изучает цикличность освещения на основе множества реальных видеозаписей без использования эталонных данных. На этапе вывода временная модель освещения комбинируется с диффузионными моделями через алгоритмы пространственно-временного смешивания признаков без дополнительного обучения; также применяется новый метод направленного уточнения в качестве постобработки для сохранения высокочастотных деталей исходного изображения. В экспериментах Comprehensive Relighting демонстрирует высокую обобщаемость и временную согласованность освещения, превосходя существующие методы переосвещения и гармонизации изображений людей.
English
This paper introduces Comprehensive Relighting, the first all-in-one approach
that can both control and harmonize the lighting from an image or video of
humans with arbitrary body parts from any scene. Building such a generalizable
model is extremely challenging due to the lack of dataset, restricting existing
image-based relighting models to a specific scenario (e.g., face or static
human). To address this challenge, we repurpose a pre-trained diffusion model
as a general image prior and jointly model the human relighting and background
harmonization in the coarse-to-fine framework. To further enhance the temporal
coherence of the relighting, we introduce an unsupervised temporal lighting
model that learns the lighting cycle consistency from many real-world videos
without any ground truth. In inference time, our temporal lighting module is
combined with the diffusion models through the spatio-temporal feature blending
algorithms without extra training; and we apply a new guided refinement as a
post-processing to preserve the high-frequency details from the input image. In
the experiments, Comprehensive Relighting shows a strong generalizability and
lighting temporal coherence, outperforming existing image-based human
relighting and harmonization methods.Summary
AI-Generated Summary