RealMaster: Trasformare Scene Renderizzate in Video Fotorealistici

Abstract

I modelli all'avanguardia per la generazione video producono un fotorealismo notevole, ma mancano del controllo preciso necessario per allineare il contenuto generato a requisiti scenici specifici. Inoltre, senza una geometria esplicita sottostante, questi modelli non possono garantire una consistenza 3D. Al contrario, i motori 3D offrono un controllo granulare su ogni elemento della scena e forniscono per progettazione una consistenza 3D nativa, eppure il loro output rimane spesso intrappolato nella "valle perturbante". Colmare questo divario sim-to-real richiede sia una precisione strutturale, dove l'output deve preservare esattamente la geometria e le dinamiche dell'input, sia una trasformazione semantica globale, dove materiali, illuminazione e texture devono essere trasformati in modo olistico per raggiungere il fotorealismo. Presentiamo RealMaster, un metodo che sfrutta i modelli di diffusione video per elevare un video renderizzato a video fotorealistico mantenendo il pieno allineamento con l'output del motore 3D. Per addestrare questo modello, generiamo un dataset accoppiato tramite una strategia di propagazione basata su ancore, dove il primo e l'ultimo fotogramma sono potenziati per il realismo e propagati attraverso i fotogrammi intermedi utilizzando suggerimenti di condizionamento geometrico. Addestriamo quindi un IC-LoRA su questi video accoppiati per distillare gli output di alta qualità della pipeline in un modello che generalizza oltre i vincoli della pipeline stessa, gestendo oggetti e personaggi che compaiono a metà sequenza e abilitando l'inferenza senza richiedere fotogrammi di ancoraggio. Valutato su sequenze complesse di GTA-V, RealMaster supera significativamente i baseline esistenti per l'editing video, migliorando il fotorealismo mentre preserva la geometria, le dinamiche e l'identità specificate dal controllo 3D originale.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster: Trasformare Scene Renderizzate in Video Fotorealistici

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Abstract

Support