Light-A-Video: Reiluminação de Vídeo sem Treinamento via Fusão Progressiva de Luz
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion
February 12, 2025
Autores: Yujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu
cs.AI
Resumo
Os avanços recentes em modelos de reluzimento de imagens, impulsionados por conjuntos de dados em larga escala e modelos de difusão pré-treinados, permitiram a imposição de iluminação consistente. No entanto, o reluzimento de vídeos ainda está atrasado, principalmente devido aos custos excessivos de treinamento e à escassez de conjuntos de dados diversos e de alta qualidade para reluzimento de vídeos. A aplicação simples de modelos de reluzimento de imagens em uma base quadro a quadro leva a vários problemas: inconsistência na fonte de iluminação e inconsistência na aparência reluzida, resultando em cintilações nos vídeos gerados. Neste trabalho, propomos o Light-A-Video, uma abordagem sem necessidade de treinamento para alcançar um reluzimento de vídeo temporalmente suave. Adaptado de modelos de reluzimento de imagens, o Light-A-Video introduz duas técnicas principais para melhorar a consistência da iluminação. Primeiro, projetamos um módulo de Atenção de Luz Consistente (CLA), que melhora as interações entre quadros nas camadas de autoatenção para estabilizar a geração da fonte de iluminação de fundo. Segundo, aproveitando o princípio físico da independência do transporte de luz, aplicamos uma mistura linear entre a aparência do vídeo original e a aparência reluzida, utilizando uma estratégia de Fusão Progressiva de Luz (PLF) para garantir transições temporais suaves na iluminação. Experimentos mostram que o Light-A-Video melhora a consistência temporal do vídeo reluzido, mantendo a qualidade da imagem e garantindo transições de iluminação coerentes entre os quadros. Página do projeto: https://bujiazi.github.io/light-a-video.github.io/.
English
Recent advancements in image relighting models, driven by large-scale
datasets and pre-trained diffusion models, have enabled the imposition of
consistent lighting. However, video relighting still lags, primarily due to the
excessive training costs and the scarcity of diverse, high-quality video
relighting datasets. A simple application of image relighting models on a
frame-by-frame basis leads to several issues: lighting source inconsistency and
relighted appearance inconsistency, resulting in flickers in the generated
videos. In this work, we propose Light-A-Video, a training-free approach to
achieve temporally smooth video relighting. Adapted from image relighting
models, Light-A-Video introduces two key techniques to enhance lighting
consistency. First, we design a Consistent Light Attention (CLA) module, which
enhances cross-frame interactions within the self-attention layers to stabilize
the generation of the background lighting source. Second, leveraging the
physical principle of light transport independence, we apply linear blending
between the source video's appearance and the relighted appearance, using a
Progressive Light Fusion (PLF) strategy to ensure smooth temporal transitions
in illumination. Experiments show that Light-A-Video improves the temporal
consistency of relighted video while maintaining the image quality, ensuring
coherent lighting transitions across frames. Project page:
https://bujiazi.github.io/light-a-video.github.io/.