LuxDiT: Оценка освещения с использованием видеодиффузионного трансформера
LuxDiT: Lighting Estimation with Video Diffusion Transformer
September 3, 2025
Авторы: Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski, Sanja Fidler, Nandita Vijaykumar, Zian Wang
cs.AI
Аннотация
Оценка освещения сцены по одному изображению или видео остается давней задачей в области компьютерного зрения и графики. Подходы, основанные на обучении, ограничены недостатком эталонных HDR-карт окружения, которые дорого получать и которые обладают ограниченным разнообразием. Хотя современные генеративные модели предлагают сильные априорные данные для синтеза изображений, оценка освещения остается сложной задачей из-за ее зависимости от косвенных визуальных подсказок, необходимости вывода глобального (нелокального) контекста и восстановления результатов с высоким динамическим диапазоном. Мы предлагаем LuxDiT — новый подход, основанный на данных, который дообучает трансформер для диффузии видео для генерации HDR-карт окружения, зависящих от визуального ввода. Обучаясь на большом синтетическом наборе данных с разнообразными условиями освещения, наша модель учится выводить освещение из косвенных визуальных подсказок и эффективно обобщает на реальные сцены. Для улучшения семантического соответствия между входными данными и предсказанной картой окружения мы вводим стратегию дообучения с низкоранговой адаптацией, используя собранный набор данных HDR-панорам. Наш метод обеспечивает точные предсказания освещения с реалистичными угловыми высокочастотными деталями, превосходя существующие передовые методы как в количественных, так и в качественных оценках.
English
Estimating scene lighting from a single image or video remains a longstanding
challenge in computer vision and graphics. Learning-based approaches are
constrained by the scarcity of ground-truth HDR environment maps, which are
expensive to capture and limited in diversity. While recent generative models
offer strong priors for image synthesis, lighting estimation remains difficult
due to its reliance on indirect visual cues, the need to infer global
(non-local) context, and the recovery of high-dynamic-range outputs. We propose
LuxDiT, a novel data-driven approach that fine-tunes a video diffusion
transformer to generate HDR environment maps conditioned on visual input.
Trained on a large synthetic dataset with diverse lighting conditions, our
model learns to infer illumination from indirect visual cues and generalizes
effectively to real-world scenes. To improve semantic alignment between the
input and the predicted environment map, we introduce a low-rank adaptation
finetuning strategy using a collected dataset of HDR panoramas. Our method
produces accurate lighting predictions with realistic angular high-frequency
details, outperforming existing state-of-the-art techniques in both
quantitative and qualitative evaluations.