ShapeR: Generazione Robusta di Forme 3D Condizionata a Partire da Acquisizioni Informali

Abstract

I recenti progressi nella generazione di forme 3D hanno ottenuto risultati impressionanti, ma la maggior parte dei metodi esistenti si basa su input puliti, non occlusi e ben segmentati. Tali condizioni sono raramente soddisfatte negli scenari del mondo reale. Presentiamo ShapeR, un nuovo approccio per la generazione condizionata di forme di oggetti 3D a partire da sequenze acquisite in modo casuale. Data una sequenza di immagini, sfruttiamo algoritmi SLAM visivo-inerziali già disponibili, algoritmi di rilevamento 3D e modelli visione-linguaggio per estrarre, per ogni oggetto, un insieme di punti SLAM sparsi, immagini multi-vista con posa e didascalie generate automaticamente. Un trasformatore a flusso rettificato, addestrato per condizionarsi efficacemente su queste modalità, genera quindi forme 3D metriche ad alta fedeltà. Per garantire robustezza alle sfide dei dati acquisiti casualmente, impieghiamo una serie di tecniche che includono aumentazioni composizionali on-the-fly, uno schema di addestramento per curriculum che spazia da dataset a livello di oggetto a livello di scena, e strategie per gestire il disordine dello sfondo. Inoltre, introduciamo un nuovo benchmark di valutazione comprendente 178 oggetti in contesti reali attraverso 7 scene del mondo reale con annotazioni geometriche. Gli esperimenti mostrano che ShapeR supera significativamente gli approcci esistenti in questa impostazione impegnativa, ottenendo un miglioramento di 2,7x nella distanza di Chamfer rispetto allo stato dell'arte.

English

Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.

ShapeR: Generazione Robusta di Forme 3D Condizionata a Partire da Acquisizioni Informali

ShapeR: Robust Conditional 3D Shape Generation from Casual Captures

Abstract

Support