GenRecon: Verbindung generativer Priors für die Mehransichts-3D-Szenenrekonstruktion

Zusammenfassung

Wir stellen einen neuen Ansatz zur hochgetreuen 3D-Szenenrekonstruktion aus Multi-View-RGB-Bildern vor, der die Rekonstruktion eng mit einem starken generativen 3D-Vorwissen koppelt. Wir betrachten die Szenenrekonstruktion als bedingte 3D-Generierung über eine Menge räumlich lokalisierter, überlappender Abschnitte, die gemeinsam die Szene kacheln, und skalieren so die Generierung auf große Szenenausdehnungen. Entscheidend ist, dass wir die Genauigkeit und Vollständigkeit modernster generativer Formmodelle übernehmen – wir verwenden Trellis.2 als Beispiel – und diese auf die Szenenebene verallgemeinern. Zu diesem Zweck schlagen wir einen projektionsbasierten Konditionierungsmechanismus vor, der posierte Multi-View-Bildmerkmale in eine kohärente, mit dem generativen Modell ausgerichtete 3D-Repräsentation hebt, unabhängig von der Ansichtsreihenfolge und räumlich in der Szene verankert, was zu einer hochgetreuen, multi-view-konsistenten generierten Geometrie führt. Dies ermöglicht es, das starke objektebenenspezifische Vorwissen von Trellis.2 auf die Multi-View-Szenenskala zu heben und treue, bearbeitbare PBR-Netzrekonstruktionen von Innenraumumgebungen zu erzeugen. Dadurch erzielen wir hochpräzise Ergebnisse, die hochmoderne Rekonstruktionsmethoden um 16 % übertreffen.

English

We introduce a new approach to high-fidelity 3D scene reconstruction from multi-view RGB images that tightly couples reconstruction with a strong generative 3D prior. We cast scene reconstruction as conditional 3D generation over a set of spatially-localized, overlapping chunks that together tile the scene, scaling generation to large scene extents. Crucially, we inherit the fidelity and completeness of state-of-the-art generative shape models -- we use Trellis.2 as an example -- which we generalize to the scene level. To this end, we propose a projection-based conditioning mechanism that lifts posed multi-view image features into a coherent 3D representation aligned with the generative model, independent of view ordering and spatially anchored to the scene, yielding high-fidelity, multi-view consistent generated geometry. This enables lifting the strong object-level prior of Trellis.2 to multi-view, scene-scale generation, producing faithful, editable PBR mesh reconstructions of indoor environments. As a result, we obtain high-fidelity results that outperform cutting-edge reconstruction methods by 16%.