GenRecon: Объединение генеративных априорных знаний для многовидовой реконструкции 3D-сцен

Аннотация

Мы представляем новый подход к высококачественной реконструкции 3D-сцен по многовидовым RGB-изображениям, который тесно связывает реконструкцию с сильным генеративным априорным 3D-приором. Мы формулируем реконструкцию сцены как условную 3D-генерацию на основе набора пространственно-локализованных, перекрывающихся блоков, которые вместе покрывают сцену, масштабируя генерацию на большие пространственные области. Ключевым моментом является то, что мы наследуем точность и полноту современных генеративных моделей форм — мы используем Trellis.2 в качестве примера — и обобщаем их на уровень сцены. Для этого мы предлагаем проекционный механизм обусловливания, который поднимает признаки многовидовых изображений с заданными ракурсами в когерентное 3D-представление, согласованное с генеративной моделью, независимое от порядка обзора и пространственно привязанное к сцене, что обеспечивает высококачественную, согласованную по многим видам сгенерированную геометрию. Это позволяет поднять сильный объектно-уровневый приор Trellis.2 до уровня многовидовой генерации масштаба сцены, создавая достоверные, редактируемые PBR-сеточные реконструкции внутренних помещений. В результате мы получаем высококачественные результаты, превосходящие передовые методы реконструкции на 16%.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.