FrameDiffuser: Renderização Neural de Quadros Futuros Condicionada por G-Buffer

Resumo

A renderização neural para aplicações interativas requer a tradução de propriedades geométricas e de material (G-buffer) em imagens fotorrealistas com iluminação realista numa base frame-a-frame. Embora as abordagens recentes baseadas em difusão mostrem potencial para a síntese de imagens condicionada por G-buffer, elas enfrentam limitações críticas: modelos de imagem única, como o RGBX, geram frames independentemente sem consistência temporal, enquanto modelos de vídeo, como o DiffusionRenderer, são computacionalmente demasiado dispendiosos para a maioria das configurações de *gaming* de consumo e requerem sequências completas antecipadamente, tornando-os inadequados para aplicações interativas onde os frames futuros dependem da entrada do utilizador. Apresentamos o FrameDiffuser, um quadro de renderização neural autorregressivo que gera frames fotorrealistas e temporalmente consistentes, condicionando-se aos dados do G-buffer e à saída anterior do próprio modelo. Após um frame inicial, o FrameDiffuser opera puramente nos dados de G-buffer recebidos, que compreendem geometria, materiais e propriedades de superfície, utilizando simultaneamente o frame por si gerado anteriormente para orientação temporal, mantendo uma geração estável e temporalmente consistente ao longo de centenas a milhares de frames. A nossa arquitetura de dupla condicionação combina o ControlNet para orientação estrutural com o ControlLoRA para coerência temporal. Uma estratégia de treino em três etapas permite uma geração autorregressiva estável. Especializamos o nosso modelo para ambientes individuais, priorizando a consistência e a velocidade de inferência em detrimento de uma generalização ampla, demonstrando que o treino específico do ambiente atinge uma qualidade fotorrealista superior com iluminação, sombras e reflexos precisos em comparação com abordagens generalizadas.

English

Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.

FrameDiffuser: Renderização Neural de Quadros Futuros Condicionada por G-Buffer

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Resumo

Support