FrameDiffuser: G-буфер-условная диффузия для нейронного рендеринга последующих кадров
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering
December 18, 2025
Авторы: Ole Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
cs.AI
Аннотация
Нейронный рендеринг для интерактивных приложений требует преобразования геометрических и материальных свойств (G-буфера) в фотореалистичные изображения с реалистичным освещением на покадровой основе. Хотя современные диффузионные методы демонстрируют перспективность в синтезе изображений на основе G-буфера, они сталкиваются с критическими ограничениями: однокадровые модели, такие как RGBX, генерируют кадры независимо без временной согласованности, в то время как видео-модели, подобные DiffusionRenderer, слишком ресурсоемки для большинства игровых систем и требуют полных последовательностей заранее, что делает их непригодными для интерактивных приложений, где будущие кадры зависят от пользовательского ввода. Мы представляем FrameDiffuser — авторегрессионную архитектуру нейронного рендеринга, которая генерирует временно согласованные фотореалистичные кадры, используя данные G-буфера и предыдущие выходы модели. После начального кадра FrameDiffuser работает исключительно на входящих данных G-буфера, включающих геометрию, материалы и свойства поверхностей, используя при этом ранее сгенерированный кадр для временного руководства, обеспечивая стабильную генерацию с временной согласованностью на протяжении сотен и тысяч кадров. Наша двухуровневая архитектура условий сочетает ControlNet для структурного руководства с ControlLoRA для временной когерентности. Трехэтапная стратегия обучения позволяет достичь стабильной авторегрессионной генерации. Мы специализируем нашу модель под отдельные среды, отдавая приоритет согласованности и скорости вывода над широкой обобщающей способностью, демонстрируя, что специализированное обучение для конкретной среды обеспечивает превосходное фотореалистичное качество с точным освещением, тенями и отражениями по сравнению с обобщенными подходами.
English
Neural rendering for interactive applications requires translating geometric and material properties (G-buffer) to photorealistic images with realistic lighting on a frame-by-frame basis. While recent diffusion-based approaches show promise for G-buffer-conditioned image synthesis, they face critical limitations: single-image models like RGBX generate frames independently without temporal consistency, while video models like DiffusionRenderer are too computationally expensive for most consumer gaming sets ups and require complete sequences upfront, making them unsuitable for interactive applications where future frames depend on user input. We introduce FrameDiffuser, an autoregressive neural rendering framework that generates temporally consistent, photorealistic frames by conditioning on G-buffer data and the models own previous output. After an initial frame, FrameDiffuser operates purely on incoming G-buffer data, comprising geometry, materials, and surface properties, while using its previously generated frame for temporal guidance, maintaining stable, temporal consistent generation over hundreds to thousands of frames. Our dual-conditioning architecture combines ControlNet for structural guidance with ControlLoRA for temporal coherence. A three-stage training strategy enables stable autoregressive generation. We specialize our model to individual environments, prioritizing consistency and inference speed over broad generalization, demonstrating that environment-specific training achieves superior photorealistic quality with accurate lighting, shadows, and reflections compared to generalized approaches.