TC-Light : Rééclairage temporellement cohérent pour les vidéos dynamiques de longue durée

papers.abstract

L'édition de l'éclairage dans les vidéos longues avec des dynamiques complexes présente une valeur significative pour diverses tâches en aval, notamment la création et la manipulation de contenu visuel, ainsi que l'augmentation des données pour l'IA incarnée via les transferts sim2real et real2real. Néanmoins, les techniques existantes de rééclairage vidéo sont principalement limitées aux vidéos de portraits ou se heurtent à des problèmes de cohérence temporelle et d'efficacité computationnelle. Dans cet article, nous proposons TC-Light, un nouveau paradigme caractérisé par un mécanisme d'optimisation postérieure en deux étapes. Partant d'une vidéo préalablement rééclairée par un modèle de rééclairage vidéo gonflé, il optimise l'incorporation d'apparence dans la première étape pour aligner l'éclairage global. Ensuite, il optimise la représentation vidéo canonique proposée, c'est-à-dire le Tenseur Vidéo Unique (UVT), pour aligner la texture et l'éclairage à un niveau granulaire dans la deuxième étape. Pour évaluer de manière exhaustive les performances, nous établissons également un benchmark de vidéos longues et hautement dynamiques. Des expériences approfondies montrent que notre méthode permet d'obtenir des résultats de rééclairage physiquement plausibles avec une cohérence temporelle supérieure et un faible coût computationnel. Le code et les démonstrations vidéo sont disponibles à l'adresse https://dekuliutesla.github.io/tclight/.

English

Editing illumination in long videos with complex dynamics has significant value in various downstream tasks, including visual content creation and manipulation, as well as data scaling up for embodied AI through sim2real and real2real transfer. Nevertheless, existing video relighting techniques are predominantly limited to portrait videos or fall into the bottleneck of temporal consistency and computation efficiency. In this paper, we propose TC-Light, a novel paradigm characterized by the proposed two-stage post optimization mechanism. Starting from the video preliminarily relighted by an inflated video relighting model, it optimizes appearance embedding in the first stage to align global illumination. Then it optimizes the proposed canonical video representation, i.e., Unique Video Tensor (UVT), to align fine-grained texture and lighting in the second stage. To comprehensively evaluate performance, we also establish a long and highly dynamic video benchmark. Extensive experiments show that our method enables physically plausible relighting results with superior temporal coherence and low computation cost. The code and video demos are available at https://dekuliutesla.github.io/tclight/.

TC-Light : Rééclairage temporellement cohérent pour les vidéos dynamiques de longue durée

TC-Light: Temporally Consistent Relighting for Dynamic Long Videos

papers.abstract

Support