ChatPaper.aiChatPaper

Ricostruzione della Disposizione della Stanza da Viste Sparse Non Posed nel Tempo dei Modelli Pretrainati

Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

February 24, 2025
Autori: Yaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue
cs.AI

Abstract

La stima del layout di una stanza a partire da immagini a più prospettive è poco esplorata a causa delle complessità derivanti dalla geometria multi-vista, che richiede soluzioni multi-step come la stima dei parametri intrinseci ed estrinseci della camera, il matching delle immagini e la triangolazione. Tuttavia, nella ricostruzione 3D, il progresso dei recenti modelli di base 3D come DUSt3R ha spostato il paradigma dal tradizionale processo multi-step di struttura dal movimento a un approccio end-to-end in un singolo passaggio. A tal fine, introduciamo Plane-DUSt3R, un metodo innovativo per la stima del layout di una stanza a più prospettive che sfrutta il modello di base 3D DUSt3R. Plane-DUSt3R incorpora il framework DUSt3R e viene addestrato su un dataset di layout di stanze (Structure3D) con un obiettivo modificato per stimare i piani strutturali. Generando risultati uniformi e parsimoniosi, Plane-DUSt3R consente la stima del layout della stanza con un solo passaggio di post-elaborazione e risultati di rilevamento 2D. A differenza dei metodi precedenti che si basano su immagini a singola prospettiva o panoramiche, Plane-DUSt3R estende l'impostazione per gestire immagini a più prospettive. Inoltre, offre una soluzione semplificata e end-to-end che semplifica il processo e riduce l'accumulo di errori. I risultati sperimentali dimostrano che Plane-DUSt3R non solo supera i metodi all'avanguardia sul dataset sintetico, ma si dimostra anche robusto ed efficace su dati reali con diversi stili di immagine, come i cartoni animati. Il nostro codice è disponibile all'indirizzo: https://github.com/justacar/Plane-DUSt3R
English
Room layout estimation from multiple-perspective images is poorly investigated due to the complexities that emerge from multi-view geometry, which requires muti-step solutions such as camera intrinsic and extrinsic estimation, image matching, and triangulation. However, in 3D reconstruction, the advancement of recent 3D foundation models such as DUSt3R has shifted the paradigm from the traditional multi-step structure-from-motion process to an end-to-end single-step approach. To this end, we introduce Plane-DUSt3R, a novel method for multi-view room layout estimation leveraging the 3D foundation model DUSt3R. Plane-DUSt3R incorporates the DUSt3R framework and fine-tunes on a room layout dataset (Structure3D) with a modified objective to estimate structural planes. By generating uniform and parsimonious results, Plane-DUSt3R enables room layout estimation with only a single post-processing step and 2D detection results. Unlike previous methods that rely on single-perspective or panorama image, Plane-DUSt3R extends the setting to handle multiple-perspective images. Moreover, it offers a streamlined, end-to-end solution that simplifies the process and reduces error accumulation. Experimental results demonstrate that Plane-DUSt3R not only outperforms state-of-the-art methods on the synthetic dataset but also proves robust and effective on in the wild data with different image styles such as cartoon.Our code is available at: https://github.com/justacar/Plane-DUSt3R

Summary

AI-Generated Summary

PDF32March 4, 2025