ChatPaper.aiChatPaper

FrameDiffuser: Diffusione Condizionata da G-Buffer per il Rendering Neurale di Frame Futuri

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
Autori: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

Abstract

Il rendering neurale per applicazioni interattive richiede la conversione di proprietà geometriche e materiali (G-buffer) in immagini fotorealistiche con illuminazione realistica su base fotogramma per fotogramma. Sebbene i recenti approcci basati su diffusion mostrino potenziale per la sintesi d'immagine condizionata da G-buffer, presentano limitazioni critiche: i modelli per immagini singole come RGBX generano fotogrammi indipendentemente senza coerenza temporale, mentre i modelli video come DiffusionRenderer sono computazionalmente troppo costosi per la maggior parte delle configurazioni gaming consumer e richiedono sequenze complete a priori, rendendoli inadatti ad applicazioni interattive dove i fotogrammi futuri dipendono dall'input utente. Introduciamo FrameDiffuser, un framework di rendering neurale autoregressivo che genera fotogrammi temporalmente coerenti e fotorealistici condizionando sia i dati G-buffer che l'output precedente del modello. Dopo un fotogramma iniziale, FrameDiffuser opera esclusivamente sui dati G-buffer in ingresso, comprendenti geometria, materiali e proprietà superficiali, utilizzando il proprio fotogramma generato precedentemente come guida temporale, mantenendo una generazione stabile e temporalmente coerente per centinaia o migliaia di fotogrammi. La nostra architettura a doppio condizionamento combina ControlNet per la guida strutturale con ControlLoRA per la coerenza temporale. Una strategia di addestramento in tre fasi abilita una generazione autoregressiva stabile. Specializziamo il nostro modello per ambienti specifici, privilegiando coerenza e velocità d'inferenza rispetto a una generalizzazione ampia, dimostrando che l'addestramento specifico per ambiente raggiunge una qualità fotorealistica superiore con illuminazione, ombre e riflessi accurati rispetto ad approcci generalizzati.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 21, 2025