ChatPaper.aiChatPaper

V-RGBX: Videobewerking met Nauwkeurige Controle over Intrinsieke Eigenschappen

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

December 12, 2025
Auteurs: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI

Samenvatting

Grootschalige videogeneratiemodellen hebben een opmerkelijk potentieel getoond in het modelleren van fotorealistisch uiterlijk en lichtinteracties in realistische scènes. Een gesloten kader dat intrinsieke scèneeigenschappen (zoals albedo, normalen, materiaal en irradiantie) gezamenlijk begrijpt, benut voor videosynthese en bewerkbare intrinsieke representaties ondersteunt, blijft echter onontgonnen. Wij presenteren V-RGBX, het eerste end-to-end kader voor intrinsiek-bewuste videobewerking. V-RGBX verenigt drie kerneigenschappen: (1) inverse rendering van video naar intrinsieke kanalen, (2) fotorealistische videosynthese vanuit deze intrinsieke representaties, en (3) op keyframes gebaseerde videobewerking geconditioneerd op intrinsieke kanalen. De kern van V-RGBX is een vervlochten conditioneringsmechanisme dat intuïtieve, fysiek onderbouwde videobewerking mogelijk maakt via door de gebruiker geselecteerde keyframes, met ondersteuning voor flexibele manipulatie van elke intrinsieke modaliteit. Uitgebreide kwalitatieve en kwantitatieve resultaten tonen aan dat V-RGBX temporeel consistente, fotorealistische video's produceert terwijl keyframe-bewerkingen op een fysiek plausibele manier door sequenties worden gepropageerd. Wij demonstreren de effectiviteit ervan in diverse toepassingen, waaronder object-uiterlijk-bewerking en scène-niveau herbelichting, waarbij de prestaties van eerdere methoden worden overtroffen.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
PDF292December 17, 2025