ReLi3D : Reconstruction 3D multi-vues relightable avec illumination désentrelacée

Résumé

La reconstruction d'actifs 3D à partir d'images a longtemps nécessité des pipelines distincts pour la reconstruction géométrique, l'estimation des matériaux et la récupération de l'illumination, chacune présentant des limitations distinctes et une surcharge computationnelle. Nous présentons ReLi3D, le premier pipeline unifié de bout en bout qui reconstruit simultanément la géométrie 3D complète, les matériaux physiques à variation spatiale et l'illumination environnementale à partir d'images multivues éparses en moins d'une seconde. Notre idée clé est que les contraintes multivues peuvent considérablement améliorer la séparation des matériaux et de l'illumination, un problème qui reste fondamentalement mal posé pour les méthodes à image unique. La clé de notre approche est la fusion de l'entrée multivue via une architecture de conditionnement croisé par transformeur, suivie d'une nouvelle stratégie de prédiction unifiée à deux voies. La première voie prédit la structure et l'apparence de l'objet, tandis que la seconde prédit l'illumination environnementale à partir de l'arrière-plan de l'image ou des réflexions de l'objet. Ceci, combiné à un moteur de rendu différenciable par échantillonnage d'importance multiple de Monte Carlo, crée un pipeline d'entraînement optimal pour la séparation de l'illumination. De plus, avec notre protocole d'entraînement en domaine mixte, qui combine des ensembles de données PBR synthétiques avec des captures RGB du monde réel, nous obtenons des résultats généralisables en termes de géométrie, de précision des matériaux et de qualité d'illumination. En unifiant des tâches de reconstruction auparavant distinctes en une seule passe avant, nous permettons la génération quasi instantanée d'actifs 3D complets et relightables. Page du projet : https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D : Reconstruction 3D multi-vues relightable avec illumination désentrelacée

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Résumé

Support