RealMaster: Die Überführung gerenderter Szenen in fotorealistische Videos
RealMaster: Lifting Rendered Scenes into Photorealistic Video
March 24, 2026
Autoren: Dana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
cs.AI
Zusammenfassung
Aktuelle State-of-the-Art-Modelle zur Videogenerierung erzeugen bemerkenswert realistische Ergebnisse, jedoch mangelt es ihnen an der präzisen Steuerung, die notwendig ist, um generierte Inhalte mit spezifischen Szenenanforderungen in Einklang zu bringen. Darüber hinaus können diese Modelle ohne eine zugrundeliegende explizite Geometrie keine 3D-Konsistenz gewährleisten. Im Gegensatz dazu bieten 3D-Engines eine granulare Kontrolle über jedes Szeneelement und gewährleisten durch ihr Design native 3D-Konsistenz, doch ihre Ausgabe bleibt oft im "Uncanny Valley" gefangen. Um diese Sim-to-Real-Lücke zu schließen, sind sowohl strukturelle Präzision erforderlich, bei der die Ausgabe die Geometrie und Dynamik der Eingabe exakt bewahren muss, als auch eine globale semantische Transformation, bei der Materialien, Beleuchtung und Texturen ganzheitlich transformiert werden müssen, um Fotorealismus zu erreichen. Wir präsentieren RealMaster, eine Methode, die Video-Diffusionsmodelle nutzt, um gerenderte Videos in fotorealistische Videos zu überführen und dabei die vollständige Übereinstimmung mit der Ausgabe der 3D-Engine beizubehalten. Um dieses Modell zu trainieren, generieren wir einen gepaarten Datensatz mittels einer ankerbasierten Propagierungsstrategie, bei der der erste und letzte Frame für mehr Realismus optimiert und mithilfe geometrischer Konditionierungshinweise über die Zwischenframes propagiert werden. Anschließend trainieren wir eine IC-LoRA auf diesen gepaarten Videos, um die hochwertigen Ausgaben der Pipeline in ein Modell zu destillieren, das über die Einschränkungen der Pipeline hinaus generalisiert, Objekte und Charaktere verarbeitet, die mitten in der Sequenz erscheinen, und Inferenz ohne Ankerframes ermöglicht. Evaluierungen an komplexen GTA-V-Sequenzen zeigen, dass RealMaster bestehende Video-Editing-Baselines deutlich übertrifft, den Fotorealismus verbessert und gleichzeitig die durch die ursprüngliche 3D-Steuerung vorgegebene Geometrie, Dynamik und Identität bewahrt.
English
State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.