UniLumos: Быстрое и унифицированное переосвещение изображений и видео с физически правдоподобной обратной связью
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
Авторы: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
Аннотация
Релайтинг — важная задача, имеющая как практическую значимость, так и художественную ценность. Недавние диффузионные модели продемонстрировали большой потенциал, обеспечивая богатые и контролируемые световые эффекты. Однако, поскольку они обычно оптимизируются в семантическом латентном пространстве, где близость не гарантирует физической корректности в визуальном пространстве, они часто выдают нереалистичные результаты, такие как пересвеченные блики, смещенные тени и некорректные окклюзии. Мы решаем эту проблему с помощью UniLumos — унифицированной системы релайтинга для изображений и видео, которая вносит геометрическую обратную связь в RGB-пространстве в основу с потоковым согласованием. Направляя модель с помощью карт глубины и нормалей, извлеченных из ее выходов, мы явно выравниваем световые эффекты относительно структуры сцены, повышая физическую правдоподобность. Тем не менее, такая обратная связь требует высококачественных выходных данных для контроля в визуальном пространстве, что делает стандартное многошаговое шумоподавление вычислительно затратным. Чтобы смягчить это, мы применяем обучение с path consistency, позволяющее сохранять эффективность контроля даже в условиях обучения с малым числом шагов. Для обеспечения детального управления релайтингом и контроля мы разработали структурированный шестимерный протокол аннотирования, фиксирующий ключевые атрибуты освещения. На его основе мы предлагаем LumosBench — разъединенный бенчмарк на уровне атрибутов, который оценивает управляемость освещения с помощью больших моделей «визуение–язык», обеспечивая автоматическую и интерпретируемую оценку точности релайтинга по отдельным измерениям. Многочисленные эксперименты показывают, что UniLumos достигает наилучшего качества релайтинга с существенно улучшенной физической согласованностью, обеспечивая при этом 20-кратное ускорение для релайтинга как изображений, так и видео. Код доступен по адресу https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.