ChatPaper.aiChatPaper

V-RGBX: Montaggio Video con Controlli Precisi sulle Proprietà Intrinseche

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

December 12, 2025
Autori: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI

Abstract

I modelli di generazione video su larga scala hanno dimostrato un potenziale notevole nella modellazione di aspetti fotorealistici e interazioni luminose in scene del mondo reale. Tuttavia, un framework a ciclo chiuso che comprenda congiuntamente le proprietà intrinseche della scena (ad esempio, albedo, normale, materiale e irraggiamento), le sfrutti per la sintesi video e supporti rappresentazioni intrinseche modificabili rimane inesplorato. Presentiamo V-RGBX, il primo framework end-to-end per l'editing video consapevole delle proprietà intrinseche. V-RGBX unifica tre capacità chiave: (1) l'inverse rendering video in canali intrinseci, (2) la sintesi video fotorealistica a partire da queste rappresentazioni intrinseche e (3) l'editing video basato su keyframe condizionato dai canali intrinseci. Il cuore di V-RGBX è un meccanismo di condizionamento interlacciato che consente un editing video intuitivo e fisicamente fondato attraverso keyframe selezionate dall'utente, supportando la manipolazione flessibile di qualsiasi modalità intrinseca. Risultati qualitativi e quantitativi estensivi mostrano che V-RGBX produce video fotorealistici e temporalmente coerenti, propagando le modifiche dei keyframe attraverso le sequenze in modo fisicamente plausibile. Ne dimostriamo l'efficacia in diverse applicazioni, inclusa la modifica dell'aspetto di oggetti e il re-illuminazione a livello di scena, superando le prestazioni di metodi precedenti.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
PDF292December 17, 2025