V-RGBX: Edición de vídeo con controles precisos sobre propiedades intrínsecas
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
December 12, 2025
Autores: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI
Resumen
Los modelos de generación de video a gran escala han demostrado un potencial notable para modelar la apariencia fotorrealista y las interacciones de iluminación en escenas del mundo real. Sin embargo, un marco de trabajo de circuito cerrado que comprenda conjuntamente las propiedades intrínsecas de la escena (por ejemplo, albedo, normales, material e irradiancia), las aproveche para la síntesis de video y admita representaciones intrínsecas editables sigue sin explorarse. Presentamos V-RGBX, el primer marco de trabajo integral para la edición de video con consciencia de las propiedades intrínsecas. V-RGBX unifica tres capacidades clave: (1) el rendering inverso de video en canales intrínsecos, (2) la síntesis de video fotorrealista a partir de estas representaciones intrínsecas, y (3) la edición de video basada en fotogramas clave condicionada por los canales intrínsecos. El núcleo de V-RGBX es un mecanismo de condicionamiento entrelazado que permite una edición de video intuitiva y físicamente fundamentada a través de fotogramas clave seleccionados por el usuario, admitiendo la manipulación flexible de cualquier modalidad intrínseca. Resultados cualitativos y cuantitativos exhaustivos muestran que V-RGBX produce videos fotorrealistas y temporalmente consistentes, propagando las ediciones de los fotogramas clave a lo largo de las secuencias de una manera físicamente plausible. Demostramos su eficacia en diversas aplicaciones, incluyendo la edición de la apariencia de objetos y la reiluminación a nivel de escena, superando el rendimiento de métodos anteriores.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.