Relit-LiVE : Rééclairage vidéo par apprentissage conjoint de la vidéo d'environnement

Résumé

Des avancées récentes ont montré que les modèles de diffusion vidéo à grande échelle peuvent être réutilisés comme moteurs de rendu neuronaux en décomposant d'abord les vidéos en représentations intrinsèques de scène, puis en effectuant un rendu avant sous un éclairage nouveau. Bien que prometteur, ce paradigme repose fondamentalement sur une décomposition intrinsèque précise, qui reste très peu fiable pour les vidéos réelles et conduit souvent à des apparences déformées, des matériaux brisés et des artefacts temporels accumulés lors du ré-éclairage. Dans ce travail, nous présentons Relit-LiVE, un nouveau cadre de ré-éclairage vidéo qui produit des résultats physiquement cohérents et temporellement stables sans nécessiter de connaissance préalable de la pose de la caméra. Notre idée clé est d'introduire explicitement des images de référence brutes dans le processus de rendu, permettant au modèle de récupérer les indices de scène critiques qui sont inévitablement perdus ou corrompus dans les représentations intrinsèques. De plus, nous proposons une nouvelle formulation de prédiction de vidéo d'environnement qui génère simultanément des vidéos ré-éclairées et des cartes d'environnement par image alignées avec chaque point de vue de la caméra en un seul processus de diffusion. Cette prédiction conjointe impose un fort alignement géométrique-éclairage et prend naturellement en charge l'éclairage dynamique et le mouvement de la caméra, améliorant significativement la cohérence physique du ré-éclairage vidéo tout en assouplissant l'exigence de connaître la pose de la caméra par image. Des expériences approfondies démontrent que Relit-LiVE surpasse systématiquement les méthodes de pointe en ré-éclairage vidéo et en rendu neuronal sur des bancs d'essai synthétiques et réels. Au-delà du ré-éclairage, notre cadre prend naturellement en charge une large gamme d'applications en aval, notamment le rendu au niveau de la scène, l'édition de matériaux, l'insertion d'objets et le ré-éclairage vidéo en continu. Le projet est disponible à l'adresse https://github.com/zhuxing0/Relit-LiVE.

English

Recent advances have shown that large-scale video diffusion models can be repurposed as neural renderers by first decomposing videos into intrinsic scene representations and then performing forward rendering under novel illumination. While promising, this paradigm fundamentally relies on accurate intrinsic decomposition, which remains highly unreliable for real-world videos and often leads to distorted appearances, broken materials, and accumulated temporal artifacts during relighting. In this work, we present Relit-LiVE, a novel video relighting framework that produces physically consistent, temporally stable results without requiring prior knowledge of camera pose. Our key insight is to explicitly introduce raw reference images into the rendering process, enabling the model to recover critical scene cues that are inevitably lost or corrupted in intrinsic representations. Furthermore, we propose a novel environment video prediction formulation that simultaneously generates relit videos and per-frame environment maps aligned with each camera viewpoint in a single diffusion process. This joint prediction enforces strong geometric-illumination alignment and naturally supports dynamic lighting and camera motion, significantly improving physical consistency in video relighting while easing the requirement of known per-frame camera pose. Extensive experiments demonstrate that Relit-LiVE consistently outperforms state-of-the-art video relighting and neural rendering methods across synthetic and real-world benchmarks. Beyond relighting, our framework naturally supports a wide range of downstream applications, including scene-level rendering, material editing, object insertion, and streaming video relighting. The Project is available at https://github.com/zhuxing0/Relit-LiVE.

Relit-LiVE : Rééclairage vidéo par apprentissage conjoint de la vidéo d'environnement

Relit-LiVE: Relight Video by Jointly Learning Environment Video

Résumé

Support