Lumen: Reiluminação Consistente de Vídeo e Substituição Harmônica de Fundo com Modelos Generativos de Vídeo
Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models
August 18, 2025
Autores: Jianshu Zeng, Yuxuan Liu, Yutong Feng, Chenxuan Miao, Zixiang Gao, Jiwang Qu, Jianzhang Zhang, Bin Wang, Kun Yuan
cs.AI
Resumo
A reiluminação de vídeos é uma tarefa desafiadora, porém valiosa, que visa substituir o fundo em vídeos enquanto ajusta correspondentemente a iluminação no primeiro plano com uma mistura harmoniosa. Durante a tradução, é essencial preservar as propriedades originais do primeiro plano, por exemplo, o albedo, e propagar uma reiluminação consistente entre os quadros temporais. Neste artigo, propomos o Lumen, um framework de reiluminação de vídeos de ponta a ponta desenvolvido em modelos generativos de vídeo em grande escala, que recebe descrições textuais flexíveis para instruir o controle da iluminação e do fundo. Considerando a escassez de vídeos pareados de alta qualidade com o mesmo primeiro plano em várias condições de iluminação, construímos um conjunto de dados em grande escala com uma mistura de vídeos realistas e sintéticos. Para o domínio sintético, aproveitando os abundantes ativos 3D da comunidade, utilizamos um motor de renderização 3D avançado para criar pares de vídeos em diversos ambientes. Para o domínio realista, adaptamos uma simulação de iluminação baseada em HDR para complementar a falta de vídeos pareados capturados em ambientes naturais. Alimentado pelo conjunto de dados mencionado, projetamos um currículo de treinamento conjunto para liberar efetivamente os pontos fortes de cada domínio, ou seja, a consistência física nos vídeos sintéticos e a distribuição generalizada do domínio nos vídeos realistas. Para implementar isso, injetamos um adaptador consciente do domínio no modelo para desacoplar o aprendizado da reiluminação e da distribuição de aparência do domínio. Construímos um benchmark abrangente para avaliar o Lumen juntamente com os métodos existentes, a partir das perspectivas de preservação do primeiro plano e avaliação da consistência do vídeo. Os resultados experimentais demonstram que o Lumen edita efetivamente a entrada em vídeos reiluminados cinematográficos com iluminação consistente e preservação estrita do primeiro plano. Nossa página do projeto: https://lumen-relight.github.io/
English
Video relighting is a challenging yet valuable task, aiming to replace the
background in videos while correspondingly adjusting the lighting in the
foreground with harmonious blending. During translation, it is essential to
preserve the original properties of the foreground, e.g., albedo, and propagate
consistent relighting among temporal frames. In this paper, we propose Lumen,
an end-to-end video relighting framework developed on large-scale video
generative models, receiving flexible textual description for instructing the
control of lighting and background. Considering the scarcity of high-qualified
paired videos with the same foreground in various lighting conditions, we
construct a large-scale dataset with a mixture of realistic and synthetic
videos. For the synthetic domain, benefiting from the abundant 3D assets in the
community, we leverage advanced 3D rendering engine to curate video pairs in
diverse environments. For the realistic domain, we adapt a HDR-based lighting
simulation to complement the lack of paired in-the-wild videos. Powered by the
aforementioned dataset, we design a joint training curriculum to effectively
unleash the strengths of each domain, i.e., the physical consistency in
synthetic videos, and the generalized domain distribution in realistic videos.
To implement this, we inject a domain-aware adapter into the model to decouple
the learning of relighting and domain appearance distribution. We construct a
comprehensive benchmark to evaluate Lumen together with existing methods, from
the perspectives of foreground preservation and video consistency assessment.
Experimental results demonstrate that Lumen effectively edit the input into
cinematic relighted videos with consistent lighting and strict foreground
preservation. Our project page: https://lumen-relight.github.io/