RealMaster: レンダリングされたシーンを写真のようにリアルな映像へと高める技術
RealMaster: Lifting Rendered Scenes into Photorealistic Video
March 24, 2026
著者: Dana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
cs.AI
要旨
最先端のビデオ生成モデルは驚異的な写実性を実現するが、生成コンテンツを特定のシーン要件に合わせるために必要な精密な制御を欠いている。さらに、明示的な幾何学構造を持たないため、これらのモデルは3D一貫性を保証できない。一方、3Dエンジンはシーン要素を細かく制御でき、設計上本来備わっている3D一貫性を提供するが、その出力はしばしば「不気味の谷」に留まっている。このシミュレーションと現実のギャップを埋めるには、出力が入力の幾何学構造とダイナミクスを正確に保持する「構造的精密性」と、素材、照明、テクスチャを写実性達成のために包括的に変換する「大域的意味変換」の両方が必要である。本論文では、3Dエンジンの出力と完全に整合しつつ、レンダリングされたビデオを写実的なビデオに昇華させるためにビデオ拡散モデルを活用する手法「RealMaster」を提案する。このモデルを訓練するため、アンカーベースの伝播戦略により対データセットを生成する。具体的には、最初と最後のフレームを写実性が高まるように強化し、幾何学的条件付け手がかりを用いて中間フレーム全体に伝播させる。次に、これらの対ビデオに対してIC-LoRAを訓練し、パイプラインの高品質な出力をモデルに蒸留する。これにより、パイプラインの制約を超えた一般化が可能となり、シーケンス途中に現れるオブジェクトやキャラクターを扱え、アンカーフレームを必要としない推論を実現する。複雑なGTA-Vシーケンスを用いた評価において、RealMasterは既存のビデオ編集ベースラインを大幅に上回り、元の3D制御で指定された幾何学構造、ダイナミクス、アイデンティティを保持しつつ写実性を向上させる。
English
State-of-the-art video generation models produce remarkable photorealism, but they lack the precise control required to align generated content with specific scene requirements. Furthermore, without an underlying explicit geometry, these models cannot guarantee 3D consistency. Conversely, 3D engines offer granular control over every scene element and provide native 3D consistency by design, yet their output often remains trapped in the "uncanny valley". Bridging this sim-to-real gap requires both structural precision, where the output must exactly preserve the geometry and dynamics of the input, and global semantic transformation, where materials, lighting, and textures must be holistically transformed to achieve photorealism. We present RealMaster, a method that leverages video diffusion models to lift rendered video into photorealistic video while maintaining full alignment with the output of the 3D engine. To train this model, we generate a paired dataset via an anchor-based propagation strategy, where the first and last frames are enhanced for realism and propagated across the intermediate frames using geometric conditioning cues. We then train an IC-LoRA on these paired videos to distill the high-quality outputs of the pipeline into a model that generalizes beyond the pipeline's constraints, handling objects and characters that appear mid-sequence and enabling inference without requiring anchor frames. Evaluated on complex GTA-V sequences, RealMaster significantly outperforms existing video editing baselines, improving photorealism while preserving the geometry, dynamics, and identity specified by the original 3D control.