ReLi3D: Переосвещаемая многовидовая 3D-реконструкция с разделенным освещением

Аннотация

Восстановление 3D-ассетов из изображений долгое время требовало раздельных конвейеров для реконструкции геометрии, оценки материалов и восстановления освещения, каждый из которых имел свои ограничения и вычислительные затраты. Мы представляем ReLi3D — первый единый сквозной конвейер, который одновременно реконструирует полную 3D-геометрию, пространственно-вариативные физически корректные материалы и окружающее освещение по разреженным многовидовым изображениям менее чем за одну секунду. Наше ключевое наблюдение заключается в том, что многовидовые ограничения могут кардинально улучшить разделение материалов и освещения — задача, которая остается принципиально некорректной для методов, работающих с одним изображением. Ключевым элементом нашего подхода является объединение многовидового входного сигнала с помощью трансформерной архитектуры кросс-кондиционирования, за которым следует новая единая стратегия предсказания по двум направлениям. Первое направление предсказывает структуру и внешний вид объекта, а второе — окружающее освещение на основе фона изображения или отражений от объекта. Это в сочетании с дифференцируемым рендерером на основе метода Монте-Карло с множественным взвешиванием создает оптимальный конвейер обучения для разделения освещения. Кроме того, с помощью нашего протокола обучения в смешанной области, который объединяет синтетические PBR-наборы данных с реальными RGB-захватами, мы достигаем обобщаемых результатов в точности геометрии, материалов и качестве освещения. Объединяя ранее раздельные задачи реконструкции в один прямой проход, мы обеспечиваем практически мгновенное создание полных, перезасвечиваемых 3D-ассетов. Страница проекта: https://reli3d.jdihlmann.com/

English

Reconstructing 3D assets from images has long required separate pipelines for geometry reconstruction, material estimation, and illumination recovery, each with distinct limitations and computational overhead. We present ReLi3D, the first unified end-to-end pipeline that simultaneously reconstructs complete 3D geometry, spatially-varying physically-based materials, and environment illumination from sparse multi-view images in under one second. Our key insight is that multi-view constraints can dramatically improve material and illumination disentanglement, a problem that remains fundamentally ill-posed for single-image methods. Key to our approach is the fusion of the multi-view input via a transformer cross-conditioning architecture, followed by a novel unified two-path prediction strategy. The first path predicts the object's structure and appearance, while the second path predicts the environment illumination from image background or object reflections. This, combined with a differentiable Monte Carlo multiple importance sampling renderer, creates an optimal illumination disentanglement training pipeline. In addition, with our mixed domain training protocol, which combines synthetic PBR datasets with real-world RGB captures, we establish generalizable results in geometry, material accuracy, and illumination quality. By unifying previously separate reconstruction tasks into a single feed-forward pass, we enable near-instantaneous generation of complete, relightable 3D assets. Project Page: https://reli3d.jdihlmann.com/

ReLi3D: Переосвещаемая многовидовая 3D-реконструкция с разделенным освещением

ReLi3D: Relightable Multi-view 3D Reconstruction with Disentangled Illumination

Аннотация

Support