UniLumos: Rilluminazione Rapida e Unificata di Immagini e Video con Feedback Fisicamente Plausibile
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
Autori: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
Abstract
La riluminazione è un compito cruciale con sia esigenze pratiche che valore artistico, e i recenti modelli di diffusione hanno mostrato un forte potenziale permettendo effetti di illuminazione ricchi e controllabili. Tuttavia, poiché sono tipicamente ottimizzati in uno spazio latente semantico, dove la prossimità non garantisce la correttezza fisica nello spazio visivo, spesso producono risultati irrealistici, come alteluci sovraesposte, ombre disallineate e occlusioni errate. Affrontiamo questo problema con UniLumos, un framework di riluminazione unificato per immagini e video che introduce un feedback geometrico nello spazio RGB in un'architettura basata sul flow matching. Supervisionando il modello con mappe di profondità e normali estratte dai suoi output, allineiamo esplicitamente gli effetti di illuminazione con la struttura della scena, migliorando la plausibilità fisica. Ciononostante, questo feedback richiede output di alta qualità per la supervisione nello spazio visivo, rendendo la standard denoising multi-step computazionalmente costosa. Per mitigare ciò, impieghiamo il path consistency learning, permettendo alla supervisione di rimanere efficace anche sotto regimi di addestramento con pochi step. Per abilitare un controllo e una supervisione della riluminazione granulari, progettiamo un protocollo di annotazione strutturato a sei dimensioni che cattura gli attributi fondamentali dell'illuminazione. Basandoci su questo, proponiamo LumosBench, un benchmark a livello di attributo disaccoppiato che valuta la controllabilità dell'illuminazione tramite grandi modelli visione-linguaggio, abilitando una valutazione automatica e interpretabile della precisione di riluminazione attraverso dimensioni individuali. Esperimenti estensivi dimostrano che UniLumos raggiunge una qualità di riluminazione allo stato dell'arte con una consistenza fisica significativamente migliorata, offrendo al contempo un incremento di velocità di 20x sia per la riluminazione di immagini che di video. Il codice è disponibile su https://github.com/alibaba-damo-academy/Lumos-Custom.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.