ChatPaper.aiChatPaper

FrameDiffuser: ニューラル前方フレームレンダリングのためのGバッファ条件付き拡散モデル

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
著者: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

要旨

インタラクティブアプリケーションにおけるニューラルレンダリングでは、ジオメトリおよびマテリアル特性(G-buffer)をフォトリアルな画像に変換し、フレームごとに現実的なライティングを再現する必要がある。近年、G-bufferを条件とした画像合成において拡散モデルベースの手法が有望視されているが、重大な限界がある。RGBXのような単一画像モデルはフレームを独立して生成するため時間的一貫性がなく、DiffusionRendererのような動画モデルは、多くのコンシューマー向けゲーム環境では計算コストが高すぎ、完全なシーケンスを事前に必要とするため、将来フレームがユーザー入力に依存するインタラクティブアプリケーションには不向きである。本論文では、FrameDiffuserを提案する。これは、G-bufferデータとモデル自身の過去の出力を条件として、時間的一貫性のあるフォトリアルなフレームを生成する自己回帰型ニューラルレンダリングフレームワークである。初期フレーム以降、FrameDiffuserはジオメトリ、マテリアル、表面特性からなる入力G-bufferデータのみで動作し、時間的ガイダンスとして自身が生成した前フレームを利用することで、数百から数千フレームにわたる安定した時間的一貫性のある生成を実現する。我々のデュアル条件付けアーキテクチャは、構造的ガイダンスのためのControlNetと時間的コヒーレンスのためのControlLoRAを組み合わせている。3段階のトレーニング戦略により、安定した自己回帰的生成を可能にする。本モデルは個々の環境に特化させ、汎用性よりも一貫性と推論速度を優先する。環境特化型トレーニングが、一般化されたアプローチと比較して、正確なライティング、シャドウ、反射を伴う優れたフォトリアル品質を達成することを実証する。
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 20, 2025