V-RGBX: 내재적 속성에 대한 정밀한 제어를 통한 비디오 편집
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
December 12, 2025
저자: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI
초록
대규모 비디오 생성 모델은 실제 장면의 사실적인 외관과 조명 상호작용을 모델링하는 데 있어 놀라운 잠재력을 보여주고 있습니다. 그러나 본질적인 장면 속성(예: 알베도, 법선, 재질, 조사도)을 공동으로 이해하고, 이를 비디오 합성에 활용하며, 편집 가능한 본질적 표현을 지원하는 폐쇄형 프레임워크는 아직 탐구되지 않았습니다. 우리는 본질적 인식 비디오 편집을 위한 최초의 종단 간 프레임워크인 V-RGBX를 소개합니다. V-RGBX는 세 가지 핵심 기능을 통합합니다: (1) 본질적 채널로의 비디오 역렌더링, (2) 이러한 본질적 표현으로부터의 사실적 비디오 합성, (3) 본질적 채널에 기반한 키프레임 기반 비디오 편집. V-RGBX의 핵심은 사용자가 선택한 키프레임을 통해 직관적이고 물리적으로 타당한 비디오 편집을 가능하게 하는 인터리빙 조건화 메커니즘으로, 모든 본질적 양태를 유연하게 조작할 수 있도록 지원합니다. 방대한 정성적 및 정량적 결과는 V-RGBX가 시간적으로 일관되고 사실적인 비디오를 생성하면서 키프레임 편집을 물리적으로 타당한 방식으로 시퀀스 전체에 전파함을 보여줍니다. 우리는 객체 외관 편집 및 장면 수준 재조명을 포함한 다양한 응용 분야에서 기존 방법의 성능을 능가하는 V-RGBX의 효과성을 입증합니다.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.