Lumen: Reiluminación consistente de video y reemplazo armónico de fondos con modelos generativos de video
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
August 18, 2025
Autores: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
cs.AI
Resumen
El relighting de video es una tarea desafiante pero valiosa, que busca reemplazar el fondo en los videos mientras se ajusta correspondientemente la iluminación en el primer plano con una mezcla armoniosa. Durante la traducción, es esencial preservar las propiedades originales del primer plano, por ejemplo, el albedo, y propagar un relighting consistente entre los fotogramas temporales. En este artículo, proponemos Lumen, un marco de relighting de video de extremo a extremo desarrollado sobre modelos generativos de video a gran escala, que recibe descripciones textuales flexibles para instruir el control de la iluminación y el fondo. Considerando la escasez de videos de alta calidad emparejados con el mismo primer plano en diversas condiciones de iluminación, construimos un conjunto de datos a gran escala con una mezcla de videos realistas y sintéticos. Para el dominio sintético, aprovechando los abundantes activos 3D en la comunidad, utilizamos un motor de renderizado 3D avanzado para curar pares de videos en diversos entornos. Para el dominio realista, adaptamos una simulación de iluminación basada en HDR para complementar la falta de videos emparejados en entornos naturales. Impulsados por el conjunto de datos mencionado, diseñamos un plan de entrenamiento conjunto para liberar efectivamente las fortalezas de cada dominio, es decir, la consistencia física en los videos sintéticos y la distribución generalizada del dominio en los videos realistas. Para implementar esto, inyectamos un adaptador consciente del dominio en el modelo para desacoplar el aprendizaje del relighting y la distribución de apariencia del dominio. Construimos un benchmark integral para evaluar Lumen junto con métodos existentes, desde las perspectivas de preservación del primer plano y evaluación de la consistencia del video. Los resultados experimentales demuestran que Lumen edita efectivamente la entrada en videos relighteados cinematográficos con iluminación consistente y preservación estricta del primer plano. Nuestra página del proyecto: https://lumen-relight.github.io/
English
Video relighting is a challenging yet valuable task, aiming to replace the
background in videos while correspondingly adjusting the lighting in the
foreground with harmonious blending. During translation, it is essential to
preserve the original properties of the foreground, e.g., albedo, and propagate
consistent relighting among temporal frames. In this paper, we propose Lumen,
an end-to-end video relighting framework developed on large-scale video
generative models, receiving flexible textual description for instructing the
control of lighting and background. Considering the scarcity of high-qualified
paired videos with the same foreground in various lighting conditions, we
construct a large-scale dataset with a mixture of realistic and synthetic
videos. For the synthetic domain, benefiting from the abundant 3D assets in the
community, we leverage advanced 3D rendering engine to curate video pairs in
diverse environments. For the realistic domain, we adapt a HDR-based lighting
simulation to complement the lack of paired in-the-wild videos. Powered by the
aforementioned dataset, we design a joint training curriculum to effectively
unleash the strengths of each domain, i.e., the physical consistency in
synthetic videos, and the generalized domain distribution in realistic videos.
To implement this, we inject a domain-aware adapter into the model to decouple
the learning of relighting and domain appearance distribution. We construct a
comprehensive benchmark to evaluate Lumen together with existing methods, from
the perspectives of foreground preservation and video consistency assessment.
Experimental results demonstrate that Lumen effectively edit the input into
cinematic relighted videos with consistent lighting and strict foreground
preservation. Our project page: https://lumen-relight.github.io/