RealMaster: Transformando Cenas Renderizadas em Vídeo Foto-realista

Resumo

Os modelos de geração de vídeo de última geração produzem um realismo fotográfico notável, mas carecem do controle preciso necessário para alinhar o conteúdo gerado com requisitos específicos da cena. Além disso, sem uma geometria explícita subjacente, esses modelos não podem garantir consistência 3D. Por outro lado, os motores 3D oferecem controle granular sobre cada elemento da cena e fornecem consistência 3D nativa por design, mas sua saída frequentemente permanece presa no "vale da estranheza". Preencher essa lacuna entre simulação e realidade requer tanto precisão estrutural, onde a saída deve preservar exatamente a geometria e a dinâmica da entrada, quanto transformação semântica global, onde materiais, iluminação e texturas devem ser transformados holisticamente para alcançar o realismo fotográfico. Apresentamos o RealMaster, um método que aproveita modelos de difusão de vídeo para elevar vídeos renderizados a vídeos foto-realistas, mantendo o alinhamento total com a saída do motor 3D. Para treinar este modelo, geramos um conjunto de dados pareados por meio de uma estratégia de propagação baseada em âncoras, onde o primeiro e o último quadros são aprimorados para realismo e propagados pelos quadros intermediários usando pistas de condicionamento geométrico. Em seguida, treinamos um IC-LoRA nesses vídeos pareados para destilar as saídas de alta qualidade do pipeline em um modelo que generaliza além das restrições do pipeline, lidando com objetos e personagens que aparecem no meio da sequência e permitindo inferência sem exigir quadros âncora. Avaliado em sequências complexas do GTA-V, o RealMaster supera significativamente as bases de comparação de edição de vídeo existentes, melhorando o realismo fotográfico enquanto preserva a geometria, a dinâmica e a identidade especificadas pelo controle 3D original.

English

State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.

RealMaster: Transformando Cenas Renderizadas em Vídeo Foto-realista

RealMaster: Lifting Rendered Scenes into Photorealistic Video

Resumo

Support