ReLi3D: Beleuchtbare Multi-View-3D-Rekonstruktion mit entkoppelter Beleuchtung

Zusammenfassung

Die Rekonstruktion von 3D-Assets aus Bildern erforderte bisher separate Prozesse für die Geometrierekonstruktion, Materialschätzung und Beleuchtungsbestimmung, die jeweils mit unterschiedlichen Einschränkungen und Rechenaufwand verbunden sind. Wir stellen ReLi3D vor, die erste vereinheitlichte End-to-End-Pipeline, die gleichzeitig vollständige 3D-Geometrie, räumlich variierende physikalisch basierte Materialien und Umgebungsbeleuchtung aus spärlichen Multi-View-Bildern in unter einer Sekunde rekonstruiert. Unsere zentrale Erkenntnis ist, dass Multi-View-Bedingungen die Entflechtung von Material und Beleuchtung erheblich verbessern können – ein Problem, das für Single-Image-Methoden grundsätzlich schlecht gestellt bleibt. Entscheidend für unseren Ansatz ist die Fusion der Multi-View-Eingaben über eine Transformer-Cross-Conditioning-Architektur, gefolgt von einer neuartigen vereinheitlichten Zwei-Pfad-Vorhersagestrategie. Der erste Pfad sagt die Struktur und das Erscheinungsbild des Objekts vorher, während der zweite Pfad die Umgebungsbeleuchtung aus dem Bildhintergrund oder Objektreflexionen ableitet. Dies, kombiniert mit einem differenzierbaren Monte-Carlo-Multiple-Importance-Sampling-Renderer, schafft eine optimale Trainingspipeline zur Beleuchtungsentflechtung. Zusätzlich erreichen wir durch unser Mixed-Domain-Training-Protokoll, das synthetische PBR-Datensätze mit realen RGB-Aufnahmen kombiniert, generalisierbare Ergebnisse in Bezug auf Geometrie, Materialgenauigkeit und Beleuchtungsqualität. Indem wir zuvor separate Rekonstruktionsaufgaben in einem einzigen Vorwärtsdurchlauf vereinen, ermöglichen wir die nahezu sofortige Generierung vollständiger, neu beleuchtbarer 3D-Assets. Projektseite: https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D: Beleuchtbare Multi-View-3D-Rekonstruktion mit entkoppelter Beleuchtung

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Zusammenfassung

Support