GenRecon : Pont entre les a priori génératifs pour la reconstruction de scènes 3D multi-vues

Résumé

Nous présentons une nouvelle approche pour la reconstruction de scènes 3D haute-fidélité à partir d'images RGB multi-vues, qui couple étroitement la reconstruction avec un a priori génératif 3D fort. Nous formulons la reconstruction de scène comme une génération 3D conditionnelle sur un ensemble de blocs chevauchants localisés spatialement qui, ensemble, tuilent la scène, permettant d'étendre la génération à de grandes étendues de scène. Crucialement, nous héritons de la fidélité et de l'exhaustivité des modèles génératifs de formes de pointe — nous utilisons Trellis.2 comme exemple — que nous généralisons au niveau de la scène. À cette fin, nous proposons un mécanisme de conditionnement basé sur la projection qui élève les caractéristiques d'images multi-vues posées en une représentation 3D cohérente alignée sur le modèle génératif, indépendante de l'ordre des vues et ancrée spatialement à la scène, produisant ainsi une géométrie générée de haute fidélité et cohérente multi-vues. Cela permet d'élever l'a priori objet fort de Trellis.2 vers une génération multi-vues à l'échelle de la scène, produisant des reconstructions de maillage PBR fidèles et éditables d'environnements intérieurs. En conséquence, nous obtenons des résultats haute-fidélité qui surpassent de 16 % les méthodes de reconstruction de pointe.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.