Raumlayout-Rekonstruktion aus ungestellten spärlichen Ansichten im Zeitalter vortrainierter Modelle
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
February 24, 2025
Autoren: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue
cs.AI
Zusammenfassung
Die Schätzung von Raumlayouts aus Mehrperspektivenbildern ist aufgrund der Komplexitäten, die sich aus der Multi-View-Geometrie ergeben, bisher wenig erforscht. Diese erfordert mehrstufige Lösungen wie die Schätzung der intrinsischen und extrinsischen Kameraparameter, Bildabgleich und Triangulation. Im Bereich der 3D-Rekonstruktion hat jedoch der Fortschritt bei neueren 3D-Foundation-Modellen wie DUSt3R das Paradigma vom traditionellen mehrstufigen Structure-from-Motion-Prozess zu einem End-to-End-Ansatz in einem einzigen Schritt verschoben. In diesem Zusammenhang stellen wir Plane-DUSt3R vor, eine neuartige Methode zur Schätzung von Raumlayouts aus Mehrperspektivenbildern, die das 3D-Foundation-Modell DUSt3R nutzt. Plane-DUSt3R integriert das DUSt3R-Framework und wird auf einem Raumlayout-Datensatz (Structure3D) mit einem modifizierten Ziel feinabgestimmt, um strukturelle Ebenen zu schätzen. Durch die Erzeugung einheitlicher und sparsamer Ergebnisse ermöglicht Plane-DUSt3R die Schätzung von Raumlayouts mit nur einem einzigen Nachbearbeitungsschritt und 2D-Erkennungsergebnissen. Im Gegensatz zu früheren Methoden, die sich auf Einzelperspektiven- oder Panoramabilder stützen, erweitert Plane-DUSt3R die Einstellung, um Mehrperspektivenbilder zu verarbeiten. Darüber hinaus bietet es eine effiziente, End-to-End-Lösung, die den Prozess vereinfacht und die Fehlerakkumulation reduziert. Experimentelle Ergebnisse zeigen, dass Plane-DUSt3R nicht nur state-of-the-art-Methoden auf dem synthetischen Datensatz übertrifft, sondern sich auch als robust und effektiv auf realen Daten mit verschiedenen Bildstilen wie Cartoon erweist. Unser Code ist verfügbar unter: https://github.com/justacar/Plane-DUSt3R
English
Room layout estimation from multiple-perspective images is poorly
investigated due to the complexities that emerge from multi-view geometry,
which requires muti-step solutions such as camera intrinsic and extrinsic
estimation, image matching, and triangulation. However, in 3D reconstruction,
the advancement of recent 3D foundation models such as DUSt3R has shifted the
paradigm from the traditional multi-step structure-from-motion process to an
end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a
novel method for multi-view room layout estimation leveraging the 3D foundation
model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on
a room layout dataset (Structure3D) with a modified objective to estimate
structural planes. By generating uniform and parsimonious results, Plane-DUSt3R
enables room layout estimation with only a single post-processing step and 2D
detection results. Unlike previous methods that rely on single-perspective or
panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective
images. Moreover, it offers a streamlined, end-to-end solution that simplifies
the process and reduces error accumulation. Experimental results demonstrate
that Plane-DUSt3R not only outperforms state-of-the-art methods on the
synthetic dataset but also proves robust and effective on in the wild data with
different image styles such as cartoon.Our code is available at:
https://github.com/justacar/Plane-DUSt3RSummary
AI-Generated Summary