ReLi3D: Reconstrucción 3D Multivista Relumable con Iluminación Disociada

Resumen

La reconstrucción de activos 3D a partir de imágenes ha requerido tradicionalmente flujos de trabajo separados para la reconstrucción de geometría, la estimación de materiales y la recuperación de iluminación, cada uno con limitaciones y sobrecarga computacional distintivas. Presentamos ReLi3D, el primer flujo de trabajo unificado de extremo a extremo que reconstruye simultáneamente geometría 3D completa, materiales físicamente basados con variación espacial e iluminación ambiental a partir de imágenes multivista escasas en menos de un segundo. Nuestra idea clave es que las restricciones multivista pueden mejorar drásticamente el desentrelazado de materiales e iluminación, un problema que sigue siendo fundamentalmente mal planteado para los métodos de imagen única. La clave de nuestro enfoque es la fusión de la entrada multivista mediante una arquitectura de condicionamiento cruzado con transformadores, seguida de una novedosa estrategia de predicción unificada de doble vía. La primera vía predice la estructura y apariencia del objeto, mientras que la segunda predice la iluminación ambiental a partir del fondo de la imagen o de los reflejos del objeto. Esto, combinado con un renderizador diferenciable de muestreo por importancia múltiple de Monte Carlo, crea una canalización de entrenamiento óptima para el desentrelazado de iluminación. Además, con nuestro protocolo de entrenamiento de dominio mixto, que combina conjuntos de datos sintéticos PBR con capturas RGB del mundo real, establecemos resultados generalizables en precisión geométrica, de materiales y calidad de iluminación. Al unificar tareas de reconstrucción previamente separadas en un único paso de avance, permitimos la generación casi instantánea de activos 3D completos y relucientes. Página del proyecto: https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D: Reconstrucción 3D Multivista Relumable con Iluminación Disociada

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Resumen

Support