Изучение латентных прокси для управляемого переосвещения одиночных изображений

Аннотация

Переосвещение на основе одного изображения является крайне недоопределенной задачей: незначительные изменения освещения могут вызывать существенные нелинейные вариации в тенях, бликах и затенении, в то время как геометрия и материалы остаются ненаблюдаемыми. Существующие подходы на основе диффузионных моделей либо опираются на конвейеры вычисления внутренних свойств (intrinsic) или G-буферов, требующие плотного и хрупкого supervision, либо работают исключительно в латентном пространстве без физической обоснованности, что делает точный контроль направления, интенсивности и цвета ненадежным. Мы наблюдаем, что полная декомпозиция внутренних свойств является избыточной для точного переосвещения. Вместо этого, разреженные, но физически значимые признаки, указывающие, где должно изменяться освещение и как материалы должны реагировать, достаточны для управления диффузионной моделью. Основываясь на этом наблюдении, мы представляем LightCtrl, который интегрирует физические априорные знания на двух уровнях: few-shot латентный прокси-энкодер, извлекающий компактные признаки материала и геометрии из ограниченного PBR supervision, и освещенно-чувствительная маска, которая идентифицирует области, чувствительные к изменению освещения, и направляет денойзер к пикселям, связанным с затенением. Для компенсации недостатка PBR-данных мы дорабатываем прокси-ветку с использованием целевой функции на основе DPO, которая обеспечивает физическую согласованность предсказанных признаков. Мы также представляем ScaLight, масштабируемый набор данных на уровне объектов с систематически варьируемым освещением и полными метаданными камеры и источников света, что позволяет проводить физически согласованное и контролируемое обучение. На бенчмарках уровня объектов и сцен наш метод демонстрирует фотометрически достоверное переосвещение с точным непрерывным контролем, превосходя предыдущие диффузионные и intrinsic-подходы, включая улучшение до +2.4 дБ PSNR и снижение RMSE на 35% при контролируемых изменениях освещения.

English

Single-image relighting is highly under-constrained: small illumination changes can produce large, nonlinear variations in shading, shadows, and specularities, while geometry and materials remain unobserved. Existing diffusion-based approaches either rely on intrinsic or G-buffer pipelines that require dense and fragile supervision, or operate purely in latent space without physical grounding, making fine-grained control of direction, intensity, and color unreliable. We observe that a full intrinsic decomposition is unnecessary and redundant for accurate relighting. Instead, sparse but physically meaningful cues, indicating where illumination should change and how materials should respond, are sufficient to guide a diffusion model. Based on this insight, we introduce LightCtrl that integrates physical priors at two levels: a few-shot latent proxy encoder that extracts compact material-geometry cues from limited PBR supervision, and a lighting-aware mask that identifies sensitive illumination regions and steers the denoiser toward shading relevant pixels. To compensate for scarce PBR data, we refine the proxy branch using a DPO-based objective that enforces physical consistency in the predicted cues. We also present ScaLight, a large-scale object-level dataset with systematically varied illumination and complete camera-light metadata, enabling physically consistent and controllable training. Across object and scene level benchmarks, our method achieves photometrically faithful relighting with accurate continuous control, surpassing prior diffusion and intrinsic-based baselines, including gains of up to +2.4 dB PSNR and 35% lower RMSE under controlled lighting shifts.

Изучение латентных прокси для управляемого переосвещения одиночных изображений

Learning Latent Proxies for Controllable Single-Image Relighting

Аннотация

Support