GenRecon: Uniendo Priors Generativos para la Reconstrucción 3D de Escenas Multi-Vista

Resumen

Presentamos un nuevo enfoque para la reconstrucción de escenas 3D de alta fidelidad a partir de imágenes RGB multivista, que acopla estrechamente la reconstrucción con un fuerte prior generativo 3D. Planteamos la reconstrucción de escenas como una generación 3D condicionada sobre un conjunto de fragmentos superpuestos y localizados espacialmente que, en conjunto, teselan la escena, escalando la generación a extensiones de escena amplias. De manera crucial, heredamos la fidelidad y completitud de los modelos generativos de formas de última generación —utilizamos Trellis.2 como ejemplo—, los cuales generalizamos al nivel de la escena. Con este fin, proponemos un mecanismo de condicionamiento basado en proyección que eleva las características de imágenes multivista posicionadas en una representación 3D coherente alineada con el modelo generativo, independiente del orden de las vistas y anclada espacialmente a la escena, produciendo geometría generada de alta fidelidad y consistente entre vistas. Esto permite elevar el fuerte prior a nivel de objeto de Trellis.2 a una generación multivista a escala de escena, produciendo reconstrucciones de malla PBR fieles y editables de entornos interiores. Como resultado, obtenemos resultados de alta fidelidad que superan en un 16% a los métodos de reconstrucción de vanguardia.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.