UniLumos: Reiluminação Rápida e Unificada de Imagens e Vídeos com *Feedback* Fisicamente Plausível
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
Autores: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
Resumo
A reiluminação é uma tarefa crucial com demanda prática e valor artístico, e os recentes modelos de difusão têm demonstrado grande potencial ao permitir efeitos de iluminação ricos e controláveis. No entanto, como são tipicamente otimizados em espaço latente semântico, onde a proximidade não garante correção física no espaço visual, frequentemente produzem resultados irreais, como reflexos superexpostos, sombras desalinhadas e oclusões incorretas. Abordamos este problema com o UniLumos, uma estrutura unificada de reiluminação para imagens e vídeos que incorpora *feedback* geométrico no espaço RGB em um *backbone* de correspondência de fluxo. Ao supervisionar o modelo com mapas de profundidade e normais extraídos de suas saídas, alinhamos explicitamente os efeitos de iluminação com a estrutura da cena, aumentando a plausibilidade física. Contudo, este *feedback* requer saídas de alta qualidade para supervisão no espaço visual, tornando a eliminação de ruído multi-etapa padrão computacionalmente dispendiosa. Para mitigar isto, empregamos aprendizado de consistência de caminho, permitindo que a supervisão permaneça eficaz mesmo sob regimes de treinamento com poucas etapas. Para permitir controle e supervisão de reiluminação de granularidade fina, projetamos um protocolo de anotação estruturado de seis dimensões que captura atributos fundamentais de iluminação. Com base nisto, propomos o LumosBench, um *benchmark* de nível de atributo desacoplado que avalia a controlabilidade da iluminação por meio de grandes modelos de visão e linguagem, permitindo uma avaliação automática e interpretável da precisão da reiluminação em dimensões individuais. Experimentos extensivos demonstram que o UniLumos alcança qualidade de reiluminação de última geração com consistência física significativamente melhorada, enquanto proporciona uma aceleração de 20x para reiluminação de imagem e vídeo. O código está disponível em https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.