Lumen : Rééclairage vidéo cohérent et remplacement harmonieux de l'arrière-plan avec des modèles génératifs vidéo
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
August 18, 2025
papers.authors: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
cs.AI
papers.abstract
Le relighting vidéo est une tâche complexe mais précieuse, visant à remplacer l'arrière-plan des vidéos tout en ajustant de manière harmonieuse l'éclairage du premier plan. Lors de la traduction, il est essentiel de préserver les propriétés originales du premier plan, comme l'albédo, et de propager un relighting cohérent entre les trames temporelles. Dans cet article, nous proposons Lumen, un framework de relighting vidéo de bout en bout développé sur des modèles génératifs vidéo à grande échelle, recevant des descriptions textuelles flexibles pour guider le contrôle de l'éclairage et de l'arrière-plan. Considérant la rareté de vidéos appariées de haute qualité avec le même premier plan dans diverses conditions d'éclairage, nous construisons un jeu de données à grande échelle mélangeant des vidéos réalistes et synthétiques. Pour le domaine synthétique, profitant de la richesse des actifs 3D disponibles, nous utilisons un moteur de rendu 3D avancé pour créer des paires de vidéos dans divers environnements. Pour le domaine réaliste, nous adaptons une simulation d'éclairage basée sur HDR pour pallier le manque de vidéos appariées en conditions réelles. Grâce à ce jeu de données, nous concevons un programme d'entraînement conjoint pour exploiter efficacement les forces de chaque domaine, à savoir la cohérence physique des vidéos synthétiques et la distribution généralisée du domaine des vidéos réalistes. Pour ce faire, nous injectons un adaptateur sensible au domaine dans le modèle pour découpler l'apprentissage du relighting et de la distribution d'apparence du domaine. Nous construisons un benchmark complet pour évaluer Lumen ainsi que les méthodes existantes, en termes de préservation du premier plan et d'évaluation de la cohérence vidéo. Les résultats expérimentaux montrent que Lumen modifie efficacement l'entrée en vidéos relightées cinématiques avec un éclairage cohérent et une préservation stricte du premier plan. Notre page de projet : https://lumen-relight.github.io/
English
Video relighting is a challenging yet valuable task, aiming to replace the
background in videos while correspondingly adjusting the lighting in the
foreground with harmonious blending. During translation, it is essential to
preserve the original properties of the foreground, e.g., albedo, and propagate
consistent relighting among temporal frames. In this paper, we propose Lumen,
an end-to-end video relighting framework developed on large-scale video
generative models, receiving flexible textual description for instructing the
control of lighting and background. Considering the scarcity of high-qualified
paired videos with the same foreground in various lighting conditions, we
construct a large-scale dataset with a mixture of realistic and synthetic
videos. For the synthetic domain, benefiting from the abundant 3D assets in the
community, we leverage advanced 3D rendering engine to curate video pairs in
diverse environments. For the realistic domain, we adapt a HDR-based lighting
simulation to complement the lack of paired in-the-wild videos. Powered by the
aforementioned dataset, we design a joint training curriculum to effectively
unleash the strengths of each domain, i.e., the physical consistency in
synthetic videos, and the generalized domain distribution in realistic videos.
To implement this, we inject a domain-aware adapter into the model to decouple
the learning of relighting and domain appearance distribution. We construct a
comprehensive benchmark to evaluate Lumen together with existing methods, from
the perspectives of foreground preservation and video consistency assessment.
Experimental results demonstrate that Lumen effectively edit the input into
cinematic relighted videos with consistent lighting and strict foreground
preservation. Our project page: https://lumen-relight.github.io/