Light-A-Video: Illuminazione di video senza addestramento tramite Fusione Progressiva della Luce

Abstract

I recenti progressi nei modelli di illuminazione delle immagini, guidati da set di dati su larga scala e modelli di diffusione pre-addestrati, hanno reso possibile l'imposizione di illuminazioni coerenti. Tuttavia, l'illuminazione dei video è ancora indietro, principalmente a causa dei costi eccessivi di addestramento e della scarsità di set di dati di illuminazione video diversi e di alta qualità. Una semplice applicazione dei modelli di illuminazione delle immagini su base frame-by-frame porta a diversi problemi: inconsistenza della sorgente luminosa e inconsistenza dell'aspetto illuminato, che si traducono in sfarfallii nei video generati. In questo lavoro, proponiamo Light-A-Video, un approccio senza addestramento per ottenere un'illuminazione video temporalmente uniforme. Adattato dai modelli di illuminazione delle immagini, Light-A-Video introduce due tecniche chiave per migliorare la coerenza dell'illuminazione. In primo luogo, progettiamo un modulo di Attenzione alla Luce Coerente (CLA), che potenzia le interazioni tra frame all'interno degli strati di auto-attenzione per stabilizzare la generazione della sorgente di illuminazione dello sfondo. In secondo luogo, sfruttando il principio fisico dell'indipendenza del trasporto della luce, applichiamo una miscelazione lineare tra l'aspetto del video sorgente e l'aspetto illuminato, utilizzando una strategia di Fusione Progressiva della Luce (PLF) per garantire transizioni temporali uniformi nell'illuminazione. Gli esperimenti mostrano che Light-A-Video migliora la coerenza temporale dei video illuminati mantenendo la qualità dell'immagine, garantendo transizioni di illuminazione coerenti tra i frame. Pagina del progetto: https://bujiazi.github.io/light-a-video.github.io/.

English

Recent advancements in image relighting models, driven by large-scale datasets and pre-trained diffusion models, have enabled the imposition of consistent lighting. However, video relighting still lags, primarily due to the excessive training costs and the scarcity of diverse, high-quality video relighting datasets. A simple application of image relighting models on a frame-by-frame basis leads to several issues: lighting source inconsistency and relighted appearance inconsistency, resulting in flickers in the generated videos. In this work, we propose Light-A-Video, a training-free approach to achieve temporally smooth video relighting. Adapted from image relighting models, Light-A-Video introduces two key techniques to enhance lighting consistency. First, we design a Consistent Light Attention (CLA) module, which enhances cross-frame interactions within the self-attention layers to stabilize the generation of the background lighting source. Second, leveraging the physical principle of light transport independence, we apply linear blending between the source video's appearance and the relighted appearance, using a Progressive Light Fusion (PLF) strategy to ensure smooth temporal transitions in illumination. Experiments show that Light-A-Video improves the temporal consistency of relighted video while maintaining the image quality, ensuring coherent lighting transitions across frames. Project page: https://bujiazi.github.io/light-a-video.github.io/.

Light-A-Video: Illuminazione di video senza addestramento tramite Fusione Progressiva della Luce

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Abstract

Summary

Support

Support