ChatPaper.aiChatPaper

V-RGBX : Édition vidéo avec un contrôle précis des propriétés intrinsèques

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

December 12, 2025
papers.authors: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI

papers.abstract

Les modèles de génération vidéo à grande échelle ont démontré un potentiel remarquable pour modéliser l'apparence photoréaliste et les interactions lumineuses dans des scènes du monde réel. Cependant, un cadre en boucle fermée qui comprend conjointement les propriétés intrinsèques des scènes (par exemple, l'albédo, la normale, le matériau et l'irradiance), les exploite pour la synthèse vidéo et prend en charge des représentations intrinsèques modifiables reste inexploré. Nous présentons V-RGBX, le premier cadre de travail de bout en bout pour l'édition vidéo avec prise en compte des propriétés intrinsèques. V-RGBX unifie trois capacités clés : (1) l'inversion de rendu vidéo en canaux intrinsèques, (2) la synthèse vidéo photoréaliste à partir de ces représentations intrinsèques, et (3) l'édition vidéo basée sur des images clés conditionnée par les canaux intrinsèques. Au cœur de V-RGBX se trouve un mécanisme de conditionnement entrelacé qui permet une édition vidéo intuitive et physiquement fondée grâce à des images clés sélectionnées par l'utilisateur, prenant en charge la manipulation flexible de toute modalité intrinsèque. Des résultats qualitatifs et quantitatifs approfondis montrent que V-RGBX produit des vidéos photoréalistes et temporellement cohérentes tout en propageant les modifications des images clés à travers les séquences de manière physiquement plausible. Nous démontrons son efficacité dans diverses applications, notamment l'édition de l'apparence des objets et le re-éclairage au niveau de la scène, surpassant les performances des méthodes antérieures.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
PDF292December 17, 2025