Raumlayout-Rekonstruktion aus ungestellten spärlichen Ansichten im Zeitalter vortrainierter Modelle

papers.abstract

Die Schätzung von Raumlayouts aus Mehrperspektivenbildern ist aufgrund der Komplexitäten, die sich aus der Multi-View-Geometrie ergeben, bisher wenig erforscht. Diese erfordert mehrstufige Lösungen wie die Schätzung der intrinsischen und extrinsischen Kameraparameter, Bildabgleich und Triangulation. Im Bereich der 3D-Rekonstruktion hat jedoch der Fortschritt bei neueren 3D-Foundation-Modellen wie DUSt3R das Paradigma vom traditionellen mehrstufigen Structure-from-Motion-Prozess zu einem End-to-End-Ansatz in einem einzigen Schritt verschoben. In diesem Zusammenhang stellen wir Plane-DUSt3R vor, eine neuartige Methode zur Schätzung von Raumlayouts aus Mehrperspektivenbildern, die das 3D-Foundation-Modell DUSt3R nutzt. Plane-DUSt3R integriert das DUSt3R-Framework und wird auf einem Raumlayout-Datensatz (Structure3D) mit einem modifizierten Ziel feinabgestimmt, um strukturelle Ebenen zu schätzen. Durch die Erzeugung einheitlicher und sparsamer Ergebnisse ermöglicht Plane-DUSt3R die Schätzung von Raumlayouts mit nur einem einzigen Nachbearbeitungsschritt und 2D-Erkennungsergebnissen. Im Gegensatz zu früheren Methoden, die sich auf Einzelperspektiven- oder Panoramabilder stützen, erweitert Plane-DUSt3R die Einstellung, um Mehrperspektivenbilder zu verarbeiten. Darüber hinaus bietet es eine effiziente, End-to-End-Lösung, die den Prozess vereinfacht und die Fehlerakkumulation reduziert. Experimentelle Ergebnisse zeigen, dass Plane-DUSt3R nicht nur state-of-the-art-Methoden auf dem synthetischen Datensatz übertrifft, sondern sich auch als robust und effektiv auf realen Daten mit verschiedenen Bildstilen wie Cartoon erweist. Unser Code ist verfügbar unter: https://github.com/justacar/Plane-DUSt3R

English

Room layout estimation from multiple-perspective images is poorly investigated due to the complexities that emerge from multi-view geometry, which requires muti-step solutions such as camera intrinsic and extrinsic estimation, image matching, and triangulation. However, in 3D reconstruction, the advancement of recent 3D foundation models such as DUSt3R has shifted the paradigm from the traditional multi-step structure-from-motion process to an end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a novel method for multi-view room layout estimation leveraging the 3D foundation model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on a room layout dataset (Structure3D) with a modified objective to estimate structural planes. By generating uniform and parsimonious results, Plane-DUSt3R enables room layout estimation with only a single post-processing step and 2D detection results. Unlike previous methods that rely on single-perspective or panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective images. Moreover, it offers a streamlined, end-to-end solution that simplifies the process and reduces error accumulation. Experimental results demonstrate that Plane-DUSt3R not only outperforms state-of-the-art methods on the synthetic dataset but also proves robust and effective on in the wild data with different image styles such as cartoon.Our code is available at: https://github.com/justacar/Plane-DUSt3R

Raumlayout-Rekonstruktion aus ungestellten spärlichen Ansichten im Zeitalter vortrainierter Modelle

Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

papers.abstract

Support