ChatPaper.aiChatPaper

FrameDiffuser: 신경 순방향 프레임 렌더링을 위한 G-버퍼 조건부 디퓨전

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

December 18, 2025
저자: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI

초록

인터랙티브 애플리케이션을 위한 신경망 렌더링은 기하학적 및 재질 특성(G-버퍼)을 프레임 단위로 사실적인 조명이 적용된 실제적 이미지로 변환하는 것을 요구한다. 최근 G-버퍼 조건 기반 이미지 합성을 위한 디퓨전 기반 접근법이 가능성을 보여주고 있지만, 중요한 한계에 직면해 있다: RGBX와 같은 단일 이미지 모델은 시간적 일관성 없이 프레임을 독립적으로 생성하는 반면, DiffusionRenderer와 같은 비디오 모델은 대부분의 소비자용 게임 환경에서는 계산 비용이 너무 높고 사전에 전체 시퀀스가 필요하여 향후 프레임이 사용자 입력에 의존하는 인터랙티브 애플리케이션에는 적합하지 않다. 우리는 G-버퍼 데이터와 모델 자체의 이전 출력을 조건으로 하여 시간적 일관성이 있는 실제적인 프레임을 생성하는 자기회귀 신경망 렌더링 프레임워크인 FrameDiffuser를 소개한다. 초기 프레임 이후 FrameDiffuser는 순수하게 들어오는 기하학, 재질, 표면 특성으로 구성된 G-버퍼 데이터만을 사용하면서, 이전에 생성된 프레임을 시간적 안내를 위해 활용하여 수백에서 수천 프레임에 걸쳐 안정적이고 시간적 일관성 있는 생성을 유지한다. 우리의 이중 조건화 아키텍처는 구조적 안내를 위한 ControlNet과 시간적 일관성을 위한 ControlLoRA를 결합한다. 3단계 학습 전략을 통해 안정적인 자기회귀 생성이 가능하다. 우리는 모델을 개별 환경에 특화시켜 광범위한 일반화보다 일관성과 추론 속도를 우선시하며, 환경 특화 학습이 일반화된 접근법에 비해 정확한 조명, 그림자, 반사를 갖춘 우수한 실제적 품질을 달성함을 입증한다.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.
PDF32December 20, 2025