RealMaster: Elevando Escenas Renderizadas a Video Fotorrealista

Resumen

Los modelos de última generación para la generación de vídeo producen un notable realismo fotográfico, pero carecen del control preciso necesario para alinear el contenido generado con requisitos específicos de la escena. Además, sin una geometría subyacente explícita, estos modelos no pueden garantizar la coherencia 3D. Por el contrario, los motores 3D ofrecen un control granular sobre cada elemento de la escena y proporcionan coherencia 3D nativa por diseño, aunque su salida a menudo permanece atrapada en el "valle inquietante". Salvar esta brecha entre lo simulado y lo real requiere tanto una precisión estructural, donde la salida debe preservar exactamente la geometría y la dinámica de la entrada, como una transformación semántica global, donde los materiales, la iluminación y las texturas deben transformarse de manera holística para lograr el realismo fotográfico. Presentamos RealMaster, un método que aprovecha los modelos de difusión de vídeo para elevar un vídeo renderizado a un vídeo fotorrealista manteniendo una alineación completa con la salida del motor 3D. Para entrenar este modelo, generamos un conjunto de datos emparejados mediante una estrategia de propagación basada en anclajes, donde los fotogramas primero y último se mejoran para realismo y se propagan a través de los fotogramas intermedios utilizando señales de condicionamiento geométrico. Luego entrenamos un IC-LoRA en estos vídeos emparejados para destilar las salidas de alta calidad de la pipeline en un modelo que generaliza más allá de las restricciones de la pipeline, manejando objetos y personajes que aparecen a mitad de la secuencia y permitiendo inferencia sin requerir fotogramas ancla. Evaluado en secuencias complejas de GTA-V, RealMaster supera significativamente a los métodos base existentes de edición de vídeo, mejorando el realismo fotográfico mientras preserva la geometría, la dinámica y la identidad especificadas por el control 3D original.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster: Elevando Escenas Renderizadas a Video Fotorrealista

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Resumen

Support