V-RGBX: Edição de Vídeo com Controles Precisos sobre Propriedades Intrínsecas

Resumo

Os modelos de geração de vídeo em larga escala têm demonstrado um potencial notável na modelagem de aparência fotorrealista e interações de iluminação em cenas do mundo real. No entanto, uma estrutura de circuito fechado que compreenda conjuntamente propriedades intrínsecas da cena (por exemplo, albedo, normal, material e irradiância), as utilize para síntese de vídeo e suporte representações intrínsecas editáveis permanece inexplorada. Apresentamos o V-RGBX, o primeiro *framework* de ponta a ponta para edição de vídeo com consciência intrínseca. O V-RGBX unifica três capacidades principais: (1) renderização inversa de vídeo em canais intrínsecos, (2) síntese de vídeo fotorrealista a partir dessas representações intrínsecas e (3) edição de vídeo baseada em *keyframes* condicionada nos canais intrínsecos. O cerne do V-RGBX é um mecanismo de condicionamento intercalado que permite uma edição de vídeo intuitiva e fisicamente fundamentada através de *keyframes* selecionados pelo utilizador, suportando a manipulação flexível de qualquer modalidade intrínseca. Resultados qualitativos e quantitativos extensivos mostram que o V-RGBX produz vídeos fotorrealistas e temporalmente consistentes, propagando as edições dos *keyframes* ao longo das sequências de uma forma fisicamente plausível. Demonstramos a sua eficácia em diversas aplicações, incluindo edição da aparência de objetos e reiluminação a nível de cena, superando o desempenho de métodos anteriores.

English

Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.

V-RGBX: Edição de Vídeo com Controles Precisos sobre Propriedades Intrínsecas

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Resumo

Support