Completamento di Point-Cloud con Modelli di Diffusione Testo-Immagine Pre-addestrati

Abstract

I dati di point-cloud raccolti nelle applicazioni del mondo reale sono spesso incompleti. I dati mancano tipicamente a causa di oggetti osservati da punti di vista parziali, che catturano solo una prospettiva o un angolo specifico. Inoltre, i dati possono essere incompleti a causa di occlusioni e campionamenti a bassa risoluzione. Gli approcci esistenti di completamento si basano su dataset di oggetti predefiniti per guidare il completamento di point-cloud rumorosi e incompleti. Tuttavia, questi approcci performano male quando testati su oggetti Out-Of-Distribution (OOD), che sono scarsamente rappresentati nel dataset di addestramento. Qui sfruttiamo i recenti progressi nella generazione di immagini guidata da testo, che hanno portato a importanti svolte nella generazione di forme guidata da testo. Descriviamo un approccio chiamato SDS-Complete che utilizza un modello di diffusione pre-addestrato da testo a immagine e sfrutta la semantica testuale di un dato point-cloud incompleto di un oggetto, per ottenere una rappresentazione completa della superficie. SDS-Complete può completare una varietà di oggetti utilizzando l'ottimizzazione al momento del test senza la costosa raccolta di informazioni 3D. Valutiamo SDS-Complete su oggetti scansionati incompleti, catturati da sensori di profondità del mondo reale e scanner LiDAR. Troviamo che ricostruisce efficacemente oggetti assenti dai dataset comuni, riducendo la perdita di Chamfer del 50% in media rispetto ai metodi attuali. Pagina del progetto: https://sds-complete.github.io/

English

Point-cloud data collected in real-world applications are often incomplete. Data is typically missing due to objects being observed from partial viewpoints, which only capture a specific perspective or angle. Additionally, data can be incomplete due to occlusion and low-resolution sampling. Existing completion approaches rely on datasets of predefined objects to guide the completion of noisy and incomplete, point clouds. However, these approaches perform poorly when tested on Out-Of-Distribution (OOD) objects, that are poorly represented in the training dataset. Here we leverage recent advances in text-guided image generation, which lead to major breakthroughs in text-guided shape generation. We describe an approach called SDS-Complete that uses a pre-trained text-to-image diffusion model and leverages the text semantics of a given incomplete point cloud of an object, to obtain a complete surface representation. SDS-Complete can complete a variety of objects using test-time optimization without expensive collection of 3D information. We evaluate SDS Complete on incomplete scanned objects, captured by real-world depth sensors and LiDAR scanners. We find that it effectively reconstructs objects that are absent from common datasets, reducing Chamfer loss by 50% on average compared with current methods. Project page: https://sds-complete.github.io/

Completamento di Point-Cloud con Modelli di Diffusione Testo-Immagine Pre-addestrati

Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Abstract

Support