RealMaster : Transformer des scènes rendues en vidéos photoréalistes

Résumé

Les modèles de génération vidéo de pointe produisent un réalisme photographique remarquable, mais ils manquent du contrôle précis nécessaire pour aligner le contenu généré avec des exigences scéniques spécifiques. De plus, sans géométrie explicite sous-jacente, ces modèles ne peuvent garantir une cohérence 3D. À l'inverse, les moteurs 3D offrent un contrôle granulaire sur chaque élément de la scène et fournissent une cohérence 3D native par conception, mais leur résultat reste souvent prisonnier de la "vallée dérangeante". Combler cet écart entre simulation et réalité nécessite à la fois une précision structurelle, où la sortie doit préserver exactement la géométrie et la dynamique de l'entrée, et une transformation sémantique globale, où les matériaux, l'éclairage et les textures doivent être transformés de manière holistique pour atteindre le photoréalisme. Nous présentons RealMaster, une méthode qui exploite les modèles de diffusion vidéo pour élever une vidéo rendue vers une vidéo photoréaliste tout en maintenant un alignement complet avec la sortie du moteur 3D. Pour entraîner ce modèle, nous générons un jeu de données apparié via une stratégie de propagation par ancrage, où les première et dernière images sont améliorées en réalisme et propagées à travers les images intermédiaires à l'aide d'indices de conditionnement géométrique. Nous entraînons ensuite un IC-LoRA sur ces vidéos appariées pour distiller les résultats haute qualité de la pipeline en un modèle qui généralise au-delà des contraintes de celle-ci, gérant les objets et personnages apparaissant en milieu de séquence et permettant l'inférence sans nécessiter d'images d'ancrage. Évalué sur des séquences complexes de GTA-V, RealMaster surpasse significativement les méthodes de référence en édition vidéo, améliorant le photoréalisme tout en préservant la géométrie, la dynamique et l'identité spécifiées par le contrôle 3D original.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster : Transformer des scènes rendues en vidéos photoréalistes

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Résumé

Support