FrameDiffuser : Rendu neuronal de trames prospectives par diffusion conditionnée par G-Buffer
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
December 18, 2025
papers.authors: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
papers.abstract
Le rendu neuronal pour applications interactives nécessite la traduction des propriétés géométriques et matérielles (G-buffer) en images photoréalistes avec un éclairage réaliste sur une base image par image. Bien que les approches récentes basées sur la diffusion soient prometteuses pour la synthèse d'images conditionnée par le G-buffer, elles présentent des limitations critiques : les modèles mono-image comme RGBX génèrent les images indépendamment sans cohérence temporelle, tandis que les modèles vidéo comme DiffusionRenderer sont trop gourmands en calculs pour la plupart des configurations de jeu grand public et nécessitent des séquences complètes a priori, ce qui les rend inadaptés aux applications interactives où les images futures dépendent de l'entrée utilisateur. Nous présentons FrameDiffuser, un cadre de rendu neuronal autorégressif qui génère des images photoréalistes et temporellement cohérentes en se conditionnant sur les données du G-buffer et sur la sortie précédente du modèle. Après une image initiale, FrameDiffuser fonctionne uniquement sur les données de G-buffer entrantes, comprenant la géométrie, les matériaux et les propriétés de surface, tout en utilisant l'image qu'il a générée précédemment pour le guidage temporel, maintenant ainsi une génération stable et cohérente sur des centaines à des milliers d'images. Notre architecture à double conditionnement combine ControlNet pour le guidage structurel avec ControlLoRA pour la cohérence temporelle. Une stratégie d'entraînement en trois étapes permet une génération autorégressive stable. Nous spécialisons notre modèle à des environnements individuels, en privilégiant la cohérence et la vitesse d'inférence par rapport à une généralisation large, démontrant qu'un entraînement spécifique à l'environnement permet d'atteindre une qualité photoréaliste supérieure avec un éclairage, des ombres et des reflets précis par rapport aux approches généralisées.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.