RealMaster: Het omzetten van gerenderde scènes naar fotorealistische video's

Samenvatting

State-of-the-art videogeneratiemodellen produceren opmerkelijke foto-realistische resultaten, maar ze missen de precieze controle die nodig is om gegenereerde inhoud af te stemmen op specifieke scène-eisen. Bovendien kunnen deze modellen, zonder een onderliggende expliciete geometrie, geen 3D-consistentie garanderen. Omgekeerd bieden 3D-engines gedetailleerde controle over elk scène-element en bieden ze van nature 3D-consistentie, maar hun output blijft vaak steken in de "uncanny valley". Het overbruggen van deze kloof tussen simulatie en realiteit vereist zowel structurele precisie, waarbij de output de geometrie en dynamiek van de input exact moet behouden, als een globale semantische transformatie, waarbij materialen, belichting en texturen holistisch moeten worden getransformeerd om foto-realisme te bereiken. Wij presenteren RealMaster, een methode die videodiffusiemodellen benut om gerenderde video op te waarderen naar foto-realistische video, waarbij volledige afstemming met de output van de 3D-engine behouden blijft. Om dit model te trainen, genereren we een gepaard dataset via een ankergebaseerde propagatiestrategie, waarbij het eerste en laatste frame worden verbeterd voor realisme en worden verspreid over de tussenliggende frames met behulp van geometrische conditioneringssignalen. Vervolgens trainen we een IC-LoRA op deze gepaarde video's om de hoogwaardige output van de pijplijn te distilleren in een model dat generaliseert voorbij de beperkingen van de pijplijn, waardoor het objecten en personages die halverwege de sequentie verschijnen kan verwerken en inferentie mogelijk maakt zonder ankerframes. Geëvalueerd op complexe GTA-V sequenties, presteert RealMaster aanzienlijk beter dan bestaande videobewerkingsbaselines, verbetert het het foto-realisme en behoudt het de geometrie, dynamiek en identiteit gespecificeerd door de originele 3D-controle.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster: Het omzetten van gerenderde scènes naar fotorealistische video's

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Samenvatting

Support