GenRecon: Overbruggen van generatieve priors voor multi-view 3D-scenereconstructie

Samenvatting

We introduceren een nieuwe benadering voor getrouwe 3D-scènereconstructie uit multi-view RGB-beelden die reconstructie nauw koppelt aan een sterke generatieve 3D-prior. We beschouwen scènereconstructie als conditionele 3D-generatie over een reeks ruimtelijk gelokaliseerde, overlappende brokken die samen de scène bedekken, waardoor de generatie wordt opgeschaald naar grote scène-uitgestrektheden. Cruciaal is dat we de getrouwheid en volledigheid van state-of-the-art generatieve vormmodellen overnemen — we gebruiken Trellis.2 als voorbeeld — die we generaliseren naar het scèneniveau. Hiertoe stellen we een projectie-gebaseerd conditioneringsmechanisme voor dat geposeerde multi-view beeldkenmerken transformeert naar een coherente 3D-representatie die is uitgelijnd met het generatieve model, onafhankelijk van de volgorde van aanzichten en ruimtelijk verankerd aan de scène, wat resulteert in getrouwe, multi-view consistente gegenereerde geometrie. Dit maakt het mogelijk om de sterke objectniveau-prior van Trellis.2 op te schalen naar multi-view, scène-schaal generatie, wat getrouwe, bewerkbare PBR-mesh-reconstructies van binnenomgevingen oplevert. Hierdoor verkrijgen we getrouwe resultaten die 16% beter presteren dan geavanceerde reconstructiemethoden.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.