ChatPaper.aiChatPaper

V-RGBX: Edição de Vídeo com Controles Precisos sobre Propriedades Intrínsecas

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

December 12, 2025
Autores: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI

Resumo

Os modelos de geração de vídeo em larga escala têm demonstrado um potencial notável na modelagem de aparência fotorrealista e interações de iluminação em cenas do mundo real. No entanto, uma estrutura de circuito fechado que compreenda conjuntamente propriedades intrínsecas da cena (por exemplo, albedo, normal, material e irradiância), as utilize para síntese de vídeo e suporte representações intrínsecas editáveis permanece inexplorada. Apresentamos o V-RGBX, o primeiro *framework* de ponta a ponta para edição de vídeo com consciência intrínseca. O V-RGBX unifica três capacidades principais: (1) renderização inversa de vídeo em canais intrínsecos, (2) síntese de vídeo fotorrealista a partir dessas representações intrínsecas e (3) edição de vídeo baseada em *keyframes* condicionada nos canais intrínsecos. O cerne do V-RGBX é um mecanismo de condicionamento intercalado que permite uma edição de vídeo intuitiva e fisicamente fundamentada através de *keyframes* selecionados pelo utilizador, suportando a manipulação flexível de qualquer modalidade intrínseca. Resultados qualitativos e quantitativos extensivos mostram que o V-RGBX produz vídeos fotorrealistas e temporalmente consistentes, propagando as edições dos *keyframes* ao longo das sequências de uma forma fisicamente plausível. Demonstramos a sua eficácia em diversas aplicações, incluindo edição da aparência de objetos e reiluminação a nível de cena, superando o desempenho de métodos anteriores.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
PDF302February 27, 2026