BRDFusion: Física Encontra Geração para Renderização Inversa de Cenas Urbanas

Resumo

A renderização inversa de cenas urbanas a partir de vídeos capturados possibilita inúmeras aplicações, incluindo criação de conteúdo e simulação de direção autônoma. Métodos de renderização baseados em física seguem e controlam a física da iluminação, mas sofrem com artefatos de reconstrução e renderização. Embora modelos generativos produzam vídeos realistas, eles oferecem consistência e controlabilidade limitadas. Apresentamos o BRDFusion, uma estrutura unificada que combina dois modelos complementares para renderização inversa e direta. Especificamente, o BRDFusion recupera propriedades de cena explícitas e consistentes com modelagem física e alivia ambiguidades de otimização com priors generativos. Durante a renderização direta, o modelo físico fornece renderização controlável a partir da configuração da cena, e o modelo generativo remove ruídos e corrige artefatos. Assim, nosso método produz vídeos de alta qualidade enquanto permite controle preciso, superando as bases de referência em cenas reais e sintéticas. Além disso, o BRDFusion suporta reiluminação de novas vistas, simulação noturna e inserção/edição dinâmica de objetos. Página do projeto: https://shigon255.github.io/brdfusion-page/

English

Inverse rendering of urban scenes from captured videos enables numerous applications, including content creation and autonomous driving simulation. Physically-based rendering methods follow and control lighting physics, but suffer from reconstruction and rendering artifacts. While generative models produce realistic videos, they offer limited consistency and controllability. We present BRDFusion, a unified framework that combines two complementary models for inverse and forward rendering. Specifically, BRDFusion recovers explicit, consistent scene properties with physical modeling and alleviates optimization ambiguity with generative priors. During forward rendering, the physical model provides controllable rendering from the scene configuration, and the generative model denoises and fixes artifacts. Therefore, our method produces high-quality videos while allowing precise control, outperforming baselines in real and synthetic scenes. Moreover, BRDFusion supports novel-view relighting, night simulation, and dynamic object insertion/editing. Project page: https://shigon255.github.io/brdfusion-page/