V-RGBX: Редактирование видео с точным контролем над внутренними свойствами
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
December 12, 2025
Авторы: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI
Аннотация
Крупномасштабные модели генерации видео продемонстрировали значительный потенциал в моделировании фотореалистичного внешнего вида и взаимодействия света в сценах реального мира. Однако замкнутая система, которая совместно анализирует внутренние свойства сцены (такие как альбедо, нормали, материалы и освещенность), использует их для синтеза видео и поддерживает редактируемые внутренние представления, до сих пор не исследована. Мы представляем V-RGBX — первую сквозную систему для редактирования видео с учетом внутренних характеристик. V-RGBX объединяет три ключевые возможности: (1) обратный рендеринг видео в интринсик-каналы, (2) фотореалистичный синтез видео из этих внутренних представлений и (3) редактирование видео на основе ключевых кадров с условием на интринсик-каналы. В основе V-RGBX лежит механизм чередующегося кондиционирования, который позволяет интуитивно редактировать видео на физически обоснованной основе через выбранные пользователем ключевые кадры, поддерживая гибкое манипулирование любой интринсик-модальностью. Обширные качественные и количественные результаты показывают, что V-RGBX создает временно согласованные, фотореалистичные видео, одновременно распространяя правки ключевых кадров по последовательности физически правдоподобным образом. Мы демонстрируем эффективность нашего подхода в различных приложениях, включая редактирование внешнего вида объектов и переосвещение на уровне сцены, превосходя производительность существующих методов.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.