ReLi3D: Reconstrução 3D Multiview Relightable com Iluminação Desacoplada

Resumo

A reconstrução de ativos 3D a partir de imagens sempre exigiu *pipelines* separados para reconstrução geométrica, estimativa de materiais e recuperação de iluminação, cada um com limitações distintas e sobrecarga computacional. Apresentamos o ReLi3D, o primeiro *pipeline* unificado de ponta a ponta que reconstrue simultaneamente a geometria 3D completa, materiais fisicamente baseados com variação espacial e iluminação ambiental a partir de imagens esparsas de múltiplas vistas em menos de um segundo. Nossa principal percepção é que as restrições de múltiplas vistas podem melhorar drasticamente o desembaraçamento (*disentanglement*) de materiais e iluminação, um problema que permanece fundamentalmente mal posto para métodos de imagem única. A chave da nossa abordagem é a fusão da entrada de múltiplas vistas por meio de uma arquitetura de *cross-conditioning* com *transformer*, seguida por uma nova estratégia unificada de previsão de dois caminhos. O primeiro caminho prevê a estrutura e a aparência do objeto, enquanto o segundo caminho prevê a iluminação ambiental a partir do fundo da imagem ou dos reflexos do objeto. Isso, combinado com um renderizador diferenciável de amostragem por importância múltipla de Monte Carlo, cria um *pipeline* de treinamento ideal para desembaraçamento de iluminação. Além disso, com nosso protocolo de treinamento em domínio misto, que combina conjuntos de dados sintéticos PBR com capturas RGB do mundo real, estabelecemos resultados generalizáveis em precisão geométrica, de materiais e qualidade de iluminação. Ao unificar tarefas de reconstrução anteriormente separadas em uma única passagem *feed-forward*, possibilitamos a geração quase instantânea de ativos 3D completos e relumináveis. Página do Projeto: https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D: Reconstrução 3D Multiview Relightable com Iluminação Desacoplada

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Resumo

Support