ChatPaper.aiChatPaper

FrameDiffuser: G-Buffer-Gestuurde Diffusie voor Neurale Forward Frame Rendering

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
Auteurs: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

Samenvatting

Neurale rendering voor interactieve toepassingen vereist het vertalen van geometrische en materiaaleigenschappen (G-buffer) naar fotorealistische beelden met realistische belichting op frame-voor-frame basis. Hoewel recente op diffusie gebaseerde benaderingen veelbelovend zijn voor G-buffer-gestuurde beeld synthese, kampen ze met kritieke beperkingen: modellen voor enkele beelden zoals RGBX genereren frames onafhankelijk zonder temporele consistentie, terwijl videomodellen zoals DiffusionRenderer te rekenintensief zijn voor de meeste consumenten-gamingopstellingen en complete sequenties vooraf nodig hebben, waardoor ze ongeschikt zijn voor interactieve toepassingen waarbij toekomstige frames afhangen van gebruikersinvoer. Wij introduceren FrameDiffuser, een autogressief neurale renderframework dat temporeel consistente, fotorealistische frames genereert door conditionering op G-buffer-gegevens en het eerder gegenereerde outputframe van het model zelf. Na een initieel frame werkt FrameDiffuser puur op inkomende G-buffer-gegevens, bestaande uit geometrie, materialen en oppervlakte-eigenschappen, terwijl het zijn eerder gegenereerde frame gebruikt voor temporele begeleiding, waardoor stabiele, temporeel consistente generatie over honderden tot duizenden frames wordt gehandhaafd. Onze dubbele conditioneringsarchitectuur combineert ControlNet voor structurele begeleiding met ControlLoRA voor temporele coherentie. Een drietraps trainingsstrategie maakt stabiele autogressieve generatie mogelijk. Wij specialiseren ons model voor individuele omgevingen, waarbij we consistentie en inferentiesnelheid prioriteren boven brede generalisatie, en tonen aan dat omgevingsspecifieke training superieure fotorealistische kwaliteit bereikt met nauwkeurige belichting, schaduwen en reflecties in vergelijking met gegeneraliseerde benaderingen.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 31, 2025