Lumen: Illuminazione Video Coerente e Sostituzione Armoniosa dello Sfondo con Modelli Generativi Video
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
August 18, 2025
Autori: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
cs.AI
Abstract
Il relighting video è un compito impegnativo ma di grande valore, che mira a sostituire lo sfondo nei video regolando contemporaneamente l'illuminazione in primo piano con una fusione armoniosa. Durante la traduzione, è essenziale preservare le proprietà originali del primo piano, ad esempio l'albedo, e propagare un relighting coerente tra i fotogrammi temporali. In questo articolo, proponiamo Lumen, un framework end-to-end per il relighting video sviluppato su modelli generativi di video su larga scala, che riceve descrizioni testuali flessibili per guidare il controllo dell'illuminazione e dello sfondo. Considerando la scarsità di video di alta qualità accoppiati con lo stesso primo piano in varie condizioni di illuminazione, costruiamo un dataset su larga scala con una miscela di video realistici e sintetici. Per il dominio sintetico, sfruttando l'abbondanza di risorse 3D nella comunità, utilizziamo un motore di rendering 3D avanzato per curare coppie di video in ambienti diversi. Per il dominio realistico, adattiamo una simulazione di illuminazione basata su HDR per colmare la mancanza di video accoppiati in contesti reali. Potenziati dal dataset sopra menzionato, progettiamo un curriculum di addestramento congiunto per sfruttare efficacemente i punti di forza di ciascun dominio, ovvero la coerenza fisica nei video sintetici e la distribuzione generalizzata del dominio nei video realistici. Per implementare ciò, iniettiamo un adattatore consapevole del dominio nel modello per disaccoppiare l'apprendimento del relighting e della distribuzione dell'aspetto del dominio. Costruiamo un benchmark completo per valutare Lumen insieme ai metodi esistenti, dalle prospettive della preservazione del primo piano e della valutazione della coerenza video. I risultati sperimentali dimostrano che Lumen modifica efficacemente l'input in video relighted cinematografici con un'illuminazione coerente e una rigorosa preservazione del primo piano. La nostra pagina del progetto: https://lumen-relight.github.io/
English
Video relighting is a challenging yet valuable task, aiming to replace the
background in videos while correspondingly adjusting the lighting in the
foreground with harmonious blending. During translation, it is essential to
preserve the original properties of the foreground, e.g., albedo, and propagate
consistent relighting among temporal frames. In this paper, we propose Lumen,
an end-to-end video relighting framework developed on large-scale video
generative models, receiving flexible textual description for instructing the
control of lighting and background. Considering the scarcity of high-qualified
paired videos with the same foreground in various lighting conditions, we
construct a large-scale dataset with a mixture of realistic and synthetic
videos. For the synthetic domain, benefiting from the abundant 3D assets in the
community, we leverage advanced 3D rendering engine to curate video pairs in
diverse environments. For the realistic domain, we adapt a HDR-based lighting
simulation to complement the lack of paired in-the-wild videos. Powered by the
aforementioned dataset, we design a joint training curriculum to effectively
unleash the strengths of each domain, i.e., the physical consistency in
synthetic videos, and the generalized domain distribution in realistic videos.
To implement this, we inject a domain-aware adapter into the model to decouple
the learning of relighting and domain appearance distribution. We construct a
comprehensive benchmark to evaluate Lumen together with existing methods, from
the perspectives of foreground preservation and video consistency assessment.
Experimental results demonstrate that Lumen effectively edit the input into
cinematic relighted videos with consistent lighting and strict foreground
preservation. Our project page: https://lumen-relight.github.io/