Reconstruction de la disposition de pièces à partir de vues éparses non posées à l'ère des modèles pré-entraînés
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
February 24, 2025
Auteurs: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue
cs.AI
Résumé
L'estimation de la disposition des pièces à partir d'images multi-perspectives est peu explorée en raison des complexités liées à la géométrie multi-vues, qui nécessite des solutions en plusieurs étapes telles que l'estimation des paramètres intrinsèques et extrinsèques de la caméra, l'appariement d'images et la triangulation. Cependant, dans le domaine de la reconstruction 3D, les avancées récentes des modèles de fondation 3D comme DUSt3R ont bouleversé le paradigme, passant du processus traditionnel de structure-from-motion en plusieurs étapes à une approche end-to-end en une seule étape. Dans cette optique, nous présentons Plane-DUSt3R, une méthode novatrice pour l'estimation de la disposition des pièces en multi-vues, s'appuyant sur le modèle de fondation 3D DUSt3R. Plane-DUSt3R intègre le cadre de DUSt3R et est affiné sur un ensemble de données de disposition de pièces (Structure3D) avec un objectif modifié pour estimer les plans structurels. En générant des résultats uniformes et parcimonieux, Plane-DUSt3R permet l'estimation de la disposition des pièces avec seulement une étape de post-traitement et des résultats de détection 2D. Contrairement aux méthodes précédentes qui reposent sur des images à perspective unique ou panoramiques, Plane-DUSt3R étend le cadre pour gérer des images multi-perspectives. De plus, il propose une solution rationalisée et end-to-end qui simplifie le processus et réduit l'accumulation d'erreurs. Les résultats expérimentaux montrent que Plane-DUSt3R surpasse non seulement les méthodes de pointe sur le jeu de données synthétique, mais se révèle également robuste et efficace sur des données réelles avec différents styles d'images, comme le dessin animé. Notre code est disponible à l'adresse : https://github.com/justacar/Plane-DUSt3R
English
Room layout estimation from multiple-perspective images is poorly
investigated due to the complexities that emerge from multi-view geometry,
which requires muti-step solutions such as camera intrinsic and extrinsic
estimation, image matching, and triangulation. However, in 3D reconstruction,
the advancement of recent 3D foundation models such as DUSt3R has shifted the
paradigm from the traditional multi-step structure-from-motion process to an
end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a
novel method for multi-view room layout estimation leveraging the 3D foundation
model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on
a room layout dataset (Structure3D) with a modified objective to estimate
structural planes. By generating uniform and parsimonious results, Plane-DUSt3R
enables room layout estimation with only a single post-processing step and 2D
detection results. Unlike previous methods that rely on single-perspective or
panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective
images. Moreover, it offers a streamlined, end-to-end solution that simplifies
the process and reduces error accumulation. Experimental results demonstrate
that Plane-DUSt3R not only outperforms state-of-the-art methods on the
synthetic dataset but also proves robust and effective on in the wild data with
different image styles such as cartoon.Our code is available at:
https://github.com/justacar/Plane-DUSt3RSummary
AI-Generated Summary