루멘: 비디오 생성 모델을 활용한 일관된 비디오 재조명 및 조화로운 배경 교체
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
August 18, 2025
저자: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
cs.AI
초록
비디오 재조명은 비디오의 배경을 교체하면서 전경의 조명을 조화롭게 조정하여 자연스럽게 혼합하는 것을 목표로 하는 도전적이면서도 가치 있는 작업입니다. 번역 과정에서는 전경의 원래 속성(예: 알베도)을 보존하고 시간적 프레임 간 일관된 재조명을 전파하는 것이 중요합니다. 본 논문에서는 대규모 비디오 생성 모델을 기반으로 개발된 종단 간(end-to-end) 비디오 재조명 프레임워크인 Lumen을 제안합니다. Lumen은 조명과 배경을 제어하기 위한 유연한 텍스트 설명을 입력받습니다. 다양한 조명 조건에서 동일한 전경을 가진 고품질의 짝을 이루는 비디오 데이터가 부족한 점을 고려하여, 우리는 현실적 비디오와 합성 비디오를 혼합한 대규모 데이터셋을 구축했습니다. 합성 도메인의 경우, 커뮤니티에서 풍부한 3D 자산을 활용하여 다양한 환경에서 비디오 쌍을 생성하기 위해 고급 3D 렌더링 엔진을 사용했습니다. 현실적 도메인의 경우, 짝을 이루는 야외 비디오의 부족을 보완하기 위해 HDR 기반 조명 시뮬레이션을 적용했습니다. 앞서 언급한 데이터셋을 기반으로, 우리는 각 도메인의 강점(합성 비디오의 물리적 일관성과 현실적 비디오의 일반화된 도메인 분포)을 효과적으로 활용하기 위한 공동 훈련 커리큘럼을 설계했습니다. 이를 구현하기 위해, 모델에 도메인 인식 어댑터를 주입하여 재조명 학습과 도메인 외관 분포 학습을 분리했습니다. 우리는 Lumen과 기존 방법을 전경 보존 및 비디오 일관성 평가 관점에서 평가하기 위한 포괄적인 벤치마크를 구축했습니다. 실험 결과는 Lumen이 입력 비디오를 일관된 조명과 엄격한 전경 보존을 갖춘 영화적 재조명 비디오로 효과적으로 편집함을 보여줍니다. 프로젝트 페이지: https://lumen-relight.github.io/
English
Video relighting is a challenging yet valuable task, aiming to replace the
background in videos while correspondingly adjusting the lighting in the
foreground with harmonious blending. During translation, it is essential to
preserve the original properties of the foreground, e.g., albedo, and propagate
consistent relighting among temporal frames. In this paper, we propose Lumen,
an end-to-end video relighting framework developed on large-scale video
generative models, receiving flexible textual description for instructing the
control of lighting and background. Considering the scarcity of high-qualified
paired videos with the same foreground in various lighting conditions, we
construct a large-scale dataset with a mixture of realistic and synthetic
videos. For the synthetic domain, benefiting from the abundant 3D assets in the
community, we leverage advanced 3D rendering engine to curate video pairs in
diverse environments. For the realistic domain, we adapt a HDR-based lighting
simulation to complement the lack of paired in-the-wild videos. Powered by the
aforementioned dataset, we design a joint training curriculum to effectively
unleash the strengths of each domain, i.e., the physical consistency in
synthetic videos, and the generalized domain distribution in realistic videos.
To implement this, we inject a domain-aware adapter into the model to decouple
the learning of relighting and domain appearance distribution. We construct a
comprehensive benchmark to evaluate Lumen together with existing methods, from
the perspectives of foreground preservation and video consistency assessment.
Experimental results demonstrate that Lumen effectively edit the input into
cinematic relighted videos with consistent lighting and strict foreground
preservation. Our project page: https://lumen-relight.github.io/