ReLi3D: Ricostruzione 3D multi-vista riluminabile con illuminazione disaccoppiata

Abstract

La ricostruzione di asset 3D a partire da immagini ha a lungo richiesto pipeline separate per la ricostruzione geometrica, la stima dei materiali e il recupero dell'illuminazione, ciascuna con limitazioni distinte e un elevato costo computazionale. Presentiamo ReLi3D, la prima pipeline unificata end-to-end che ricostruisce simultaneamente la geometria 3D completa, materiali fisicamente basati a variazione spaziale e l'illuminazione ambientale da immagini multi-vista sparse in meno di un secondo. La nostra intuizione chiave è che i vincoli multi-vista possono migliorare drasticamente la separazione di materiali e illuminazione, un problema che rimane fondamentalmente mal posto per i metodi basati su singola immagine. Elemento cruciale del nostro approccio è la fusione dell'input multi-vista tramite un'architettura transformer a condizionamento incrociato, seguita da una nuova strategia di previsione unificata a due percorsi. Il primo percorso prevede la struttura e l'aspetto dell'oggetto, mentre il secondo prevede l'illuminazione ambientale dallo sfondo dell'immagine o dai riflessi sull'oggetto. Questo, combinato con un renderer differenziabile per l'importance sampling Monte Carlo multiplo, crea una pipeline di addestramento ottimale per la separazione dell'illuminazione. Inoltre, con il nostro protocollo di addestramento in dominio misto, che combina dataset sintetici PBR con acquisizioni RGB del mondo reale, otteniamo risultati generalizzabili in termini di geometria, accuratezza dei materiali e qualità dell'illuminazione. Unificando compiti di ricostruzione precedentemente separati in un unico passaggio in avanti, permettiamo la generazione quasi istantanea di asset 3D completi e riluminabili. Pagina del progetto: https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D: Ricostruzione 3D multi-vista riluminabile con illuminazione disaccoppiata

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Abstract

Support