ChatPaper.aiChatPaper

FrameDiffuser: Difusión Condicionada por G-Buffer para el Renderizado Neuronal de Fotogramas hacia Adelante

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
Autores: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

Resumen

La renderización neuronal para aplicaciones interactivas requiere traducir propiedades geométricas y de materiales (búfer G) a imágenes fotorrealistas con iluminación realista en cada fotograma. Aunque los enfoques recientes basados en difusión muestran potencial para la síntesis de imágenes condicionadas por búfer G, enfrentan limitaciones críticas: los modelos de imagen única como RGBX generan fotogramas independientemente sin coherencia temporal, mientras que modelos de video como DiffusionRenderer son computacionalmente demasiado costosos para la mayoría de configuraciones de gaming domésticas y requieren secuencias completas por adelantado, lo que los hace inadecuados para aplicaciones interactivas donde los fotogramas futuros dependen de la entrada del usuario. Presentamos FrameDiffuser, un marco de renderización neuronal autorregresivo que genera fotogramas temporalmente coherentes y fotorrealistas condicionándose en datos de búfer G y en la salida previa del modelo. Tras un fotograma inicial, FrameDiffuser opera exclusivamente con datos entrantes de búfer G -que incluyen geometría, materiales y propiedades superficiales- mientras utiliza su fotograma generado previamente para guía temporal, manteniendo una generación estable y coherente a lo largo de cientos o miles de fotogramas. Nuestra arquitectura de doble condicionamiento combina ControlNet para guía estructural con ControlLoRA para coherencia temporal. Una estrategia de entrenamiento en tres etapas permite una generación autorregresiva estable. Especializamos nuestro modelo para entornos individuales, priorizando la coherencia y la velocidad de inferencia sobre la generalización amplia, demostrando que el entrenamiento específico por entorno logra una calidad fotorrealista superior con iluminación, sombras y reflejos precisos en comparación con enfoques generalizados.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 20, 2025