UniLumos: 物理的に妥当なフィードバックによる高速かつ統一的な画像・映像リライティング
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
著者: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
要旨
再照明は、実用的な需要と芸術的価値の両方を備えた重要な課題であり、近年の拡散モデルは豊かで制御性の高い照明効果を実現することで強い可能性を示している。しかし、これらのモデルは通常、意味的潜在空間で最適化されるため、視覚空間における物理的正確性が近接性によって保証されず、過曝光したハイライト、位置のずれた影、誤ったオクルージョンなど非現実的な結果を生成することが多い。我々はこの問題に対処するため、画像と動画の両方に対応する統一的な再照明フレームワークUniLumosを提案する。本手法は、フローマッチング基盤にRGB空間の幾何学フィードバックを組み込むことで、出力から抽出した深度マップと法線マップを用いてモデルを監督し、照明効果とシーン構造を明示的に整合させることで物理的な妥当性を高める。ただし、このフィードバックには視覚空間での監督のための高品質な出力が必要であり、標準的な多段階ノイズ除去は計算コストが高い。これを緩和するため、パス一貫性学習を採用し、少ステップの学習体制下でも監督が有効に機能するようにした。細粒度の再照明制御と監督を可能にするため、照明属性の核心を捉えた構造化された6次元注釈プロトコルを設計した。これを基盤として、大規模視覚言語モデルによる照明制御性を評価する分離属性レベルベンチマークLumosBenchを提案し、個々の次元にわたる再照明精度の自動的かつ解釈可能な評価を実現する。大規模な実験により、UniLumosが物理的一貫性を大幅に改善した状態で最先端の再照明品質を達成し、画像と動画の再照明において20倍の高速化を実現することを示す。コードはhttps://github.com/alibaba-damo-academy/Lumos-Customで公開されている。
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.