ChatPaper.aiChatPaper

V-RGBX: Videobearbeitung mit präziser Steuerung intrinsischer Eigenschaften

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

December 12, 2025
papers.authors: Ye Fang, Tong Wu, Valentin Deschaintre, Duygu Ceylan, Iliyan Georgiev, Chun-Hao Paul Huang, Yiwei Hu, Xuelin Chen, Tuanfeng Yang Wang
cs.AI

papers.abstract

Große Videogenerierungsmodelle haben ein bemerkenswertes Potenzial bei der Modellierung fotorealistischer Erscheinung und Lichtinteraktionen in realen Szenen gezeigt. Ein geschlossenes Framework, das intrinsische Szeneneigenschaften (z.B. Albedo, Normale, Material und Bestrahlungsstärke) gemeinsam versteht, sie für die Videosynthese nutzt und editierbare intrinsische Repräsentationen unterstützt, wurde jedoch bisher nicht erforscht. Wir stellen V-RGBX vor, das erste End-to-End-Framework für intrinsisch-bewusste Videobearbeitung. V-RGBX vereint drei Schlüsselfähigkeiten: (1) inverses Rendering von Videos in intrinsische Kanäle, (2) fotorealistische Videosynthese aus diesen intrinsischen Repräsentationen und (3) keyframe-basierte Videobearbeitung auf Grundlage intrinsischer Kanäle. Kern von V-RGBX ist ein verschachtelter Konditionierungsmechanismus, der intuitive, physikalisch fundierte Videobearbeitung durch benutzerausgewählte Keyframes ermöglicht und flexible Manipulation beliebiger intrinsischer Modalitäten unterstützt. Umfangreiche qualitative und quantitative Ergebnisse zeigen, dass V-RGBX zeitlich konsistente, fotorealistische Videos erzeugt und gleichzeitig Keyframe-Bearbeitungen sequenzübergreifend auf physikalisch plausiblere Weise propagiert. Wir demonstrieren seine Wirksamkeit in diversen Anwendungen, einschließlich Objekterscheinungsbearbeitung und Szenenausleuchtung, wobei es die Leistung bisheriger Methoden übertrifft.
English
Large-scale video generation models have shown remarkable potential in modeling photorealistic appearance and lighting interactions in real-world scenes. However, a closed-loop framework that jointly understands intrinsic scene properties (e.g., albedo, normal, material, and irradiance), leverages them for video synthesis, and supports editable intrinsic representations remains unexplored. We present V-RGBX, the first end-to-end framework for intrinsic-aware video editing. V-RGBX unifies three key capabilities: (1) video inverse rendering into intrinsic channels, (2) photorealistic video synthesis from these intrinsic representations, and (3) keyframe-based video editing conditioned on intrinsic channels. At the core of V-RGBX is an interleaved conditioning mechanism that enables intuitive, physically grounded video editing through user-selected keyframes, supporting flexible manipulation of any intrinsic modality. Extensive qualitative and quantitative results show that V-RGBX produces temporally consistent, photorealistic videos while propagating keyframe edits across sequences in a physically plausible manner. We demonstrate its effectiveness in diverse applications, including object appearance editing and scene-level relighting, surpassing the performance of prior methods.
PDF292December 17, 2025