Ricostruzione della Disposizione della Stanza da Viste Sparse Non Posed nel Tempo dei Modelli Pretrainati
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model
February 24, 2025
Autori: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue
cs.AI
Abstract
La stima del layout di una stanza a partire da immagini a più prospettive è poco esplorata a causa delle complessità derivanti dalla geometria multi-vista, che richiede soluzioni multi-step come la stima dei parametri intrinseci ed estrinseci della camera, il matching delle immagini e la triangolazione. Tuttavia, nella ricostruzione 3D, il progresso dei recenti modelli di base 3D come DUSt3R ha spostato il paradigma dal tradizionale processo multi-step di struttura dal movimento a un approccio end-to-end in un singolo passaggio. A tal fine, introduciamo Plane-DUSt3R, un metodo innovativo per la stima del layout di una stanza a più prospettive che sfrutta il modello di base 3D DUSt3R. Plane-DUSt3R incorpora il framework DUSt3R e viene addestrato su un dataset di layout di stanze (Structure3D) con un obiettivo modificato per stimare i piani strutturali. Generando risultati uniformi e parsimoniosi, Plane-DUSt3R consente la stima del layout della stanza con un solo passaggio di post-elaborazione e risultati di rilevamento 2D. A differenza dei metodi precedenti che si basano su immagini a singola prospettiva o panoramiche, Plane-DUSt3R estende l'impostazione per gestire immagini a più prospettive. Inoltre, offre una soluzione semplificata e end-to-end che semplifica il processo e riduce l'accumulo di errori. I risultati sperimentali dimostrano che Plane-DUSt3R non solo supera i metodi all'avanguardia sul dataset sintetico, ma si dimostra anche robusto ed efficace su dati reali con diversi stili di immagine, come i cartoni animati. Il nostro codice è disponibile all'indirizzo: https://github.com/justacar/Plane-DUSt3R
English
Room layout estimation from multiple-perspective images is poorly
investigated due to the complexities that emerge from multi-view geometry,
which requires muti-step solutions such as camera intrinsic and extrinsic
estimation, image matching, and triangulation. However, in 3D reconstruction,
the advancement of recent 3D foundation models such as DUSt3R has shifted the
paradigm from the traditional multi-step structure-from-motion process to an
end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a
novel method for multi-view room layout estimation leveraging the 3D foundation
model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on
a room layout dataset (Structure3D) with a modified objective to estimate
structural planes. By generating uniform and parsimonious results, Plane-DUSt3R
enables room layout estimation with only a single post-processing step and 2D
detection results. Unlike previous methods that rely on single-perspective or
panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective
images. Moreover, it offers a streamlined, end-to-end solution that simplifies
the process and reduces error accumulation. Experimental results demonstrate
that Plane-DUSt3R not only outperforms state-of-the-art methods on the
synthetic dataset but also proves robust and effective on in the wild data with
different image styles such as cartoon.Our code is available at:
https://github.com/justacar/Plane-DUSt3RSummary
AI-Generated Summary