UniLumos: 물리적 타당성 피드백을 통한 빠르고 통합된 이미지 및 비디오 재조명
UniLumos: Fast and Unified Image and Video Relighting with Physics-Plausible Feedback
November 3, 2025
저자: Ropeway Liu, Hangjie Yuan, Bo Dong, Jiazheng Xing, Jinwang Wang, Rui Zhao, Yan Xing, Weihua Chen, Fan Wang
cs.AI
초록
재조명(Relighting)은 실용적 수요와 예술적 가치를 모두 지닌 중요한 과제이며, 최근 확산 모델은 풍부하고 제어 가능한 조명 효과를 구현하며 강력한 잠재력을 보여주고 있습니다. 그러나 이러한 모델들은 일반적으로 의미론적 잠재 공간에서 최적화되며, 이 공간에서의 근접성이 시각 공간에서의 물리적 정확성을 보장하지 않기 때문에 과다 노출된 하이라이트, 잘못 정렬된 그림자, 부정확한 폐색과 같은 비현실적인 결과를 종종 생성합니다. 우리는 이러한 문제를 UniLumos로 해결합니다. UniLumos는 이미지와 비디오를 위한 통합 재조명 프레임워크로, RGB 공간의 기하학적 피드백을 플로우 매칭 백본에 통합합니다. 모델의 출력에서 추출된 깊이 맵과 법선 맵으로 모델을 지도함으로써, 우리는 조명 효과를 장면 구조와 명시적으로 정렬하여 물리적 타당성을 향상시킵니다. 그러나 이러한 피드백은 시각 공간에서 지도를 위한 고품질 출력을 필요로 하여 표준적인 다단계 노이즈 제거 방식은 계산 비용이 매우 큽니다. 이를 완화하기 위해 우리는 경로 일관성 학습(Path Consistency Learning)을 채택하여 적은 단계의 학습 환경에서도 지도가 효과적으로 유지되도록 합니다. 세밀한 재조명 제어와 지도를 가능하게 하기 위해, 우리는 핵심 조명 속성을 포착하는 구조화된 6차원 주석 프로토콜을 설계했습니다. 이를 기반으로 우리는 LumosBench를 제안합니다. LumosBench는 분리된 속성 수준 벤치마크로, 대규모 시각-언어 모델을 통해 조명 제어 능력을 평가하며 개별 차원에 걸친 재조명 정밀도의 자동적이고 해석 가능한 평가를 가능하게 합니다. 광범위한 실험을 통해 UniLumos가 물리적 일관성을 크게 개선한 최첨단 재조명 품질을 달성하는 동시에 이미지 및 비디오 재조명 속도를 20배 가속화함을 입증했습니다. 코드는 https://github.com/alibaba-damo-academy/Lumos-Custom에서 확인할 수 있습니다.
English
Relighting is a crucial task with both practical demand and artistic value,
and recent diffusion models have shown strong potential by enabling rich and
controllable lighting effects. However, as they are typically optimized in
semantic latent space, where proximity does not guarantee physical correctness
in visual space, they often produce unrealistic results, such as overexposed
highlights, misaligned shadows, and incorrect occlusions. We address this with
UniLumos, a unified relighting framework for both images and videos that brings
RGB-space geometry feedback into a flow matching backbone. By supervising the
model with depth and normal maps extracted from its outputs, we explicitly
align lighting effects with the scene structure, enhancing physical
plausibility. Nevertheless, this feedback requires high-quality outputs for
supervision in visual space, making standard multi-step denoising
computationally expensive. To mitigate this, we employ path consistency
learning, allowing supervision to remain effective even under few-step training
regimes. To enable fine-grained relighting control and supervision, we design a
structured six-dimensional annotation protocol capturing core illumination
attributes. Building upon this, we propose LumosBench, a disentangled
attribute-level benchmark that evaluates lighting controllability via large
vision-language models, enabling automatic and interpretable assessment of
relighting precision across individual dimensions. Extensive experiments
demonstrate that UniLumos achieves state-of-the-art relighting quality with
significantly improved physical consistency, while delivering a 20x speedup for
both image and video relighting. Code is available at
https://github.com/alibaba-damo-academy/Lumos-Custom.