ChatPaper.aiChatPaper

FrameDiffuser: G-Buffer-konditionierte Diffusion für neuronale Vorwärts-Bildsynthese

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
papers.authors: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

papers.abstract

Neuronales Rendering für interaktive Anwendungen erfordert die Übersetzung geometrischer und Materialeigenschaften (G-Buffer) in fotorealistische Bilder mit realistischer Beleuchtung auf Einzelbildbasis. Während neuere diffusionsbasierte Ansätze vielversprechend für die G-buffer-konditionierte Bildsynthese sind, weisen sie kritische Einschränkungen auf: Einzelbildmodelle wie RGBX generieren Frames unabhängig ohne zeitliche Konsistenz, während Videomodelle wie DiffusionRenderer für die meisten Consumer-Gaming-Setups rechenzu teuer sind und komplette Sequenzen im Voraus benötigen, was sie für interaktive Anwendungen ungeeignet macht, bei denen zukünftige Frames von Benutzereingaben abhängen. Wir stellen FrameDiffuser vor, ein autoregressives neuronales Rendering-Framework, das zeitlich konsistente, fotorealistische Frames durch Konditionierung auf G-Buffer-Daten und die eigenen vorherigen Ausgaben des Modells generiert. Nach einem initialen Frame arbeitet FrameDiffuser rein auf eingehenden G-Buffer-Daten, bestehend aus Geometrie, Materialien und Oberflächeneigenschaften, und nutzt dabei seinen zuvor generierten Frame zur zeitlichen Führung, wodurch eine stabile, zeitlich konsistente Generierung über hunderte bis tausende Frames hinweg erhalten bleibt. Unsere Dual-Conditioning-Architektur kombiniert ControlNet für strukturelle Führung mit ControlLoRA für zeitliche Kohärenz. Eine dreistufige Trainingsstrategie ermöglicht stabiles autoregressives Generieren. Wir spezialisieren unser Modell auf individuelle Umgebungen, priorisieren Konsistenz und Inferenzgeschwindigkeit gegenüber breiter Generalisierung, und demonstrieren, dass umgebungsspezifisches Training im Vergleich zu generalisierten Ansätzen überlegene fotorealistische Qualität mit präziser Beleuchtung, Schatten und Reflexionen erreicht.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 20, 2025