Complétion de nuages de points avec des modèles de diffusion texte-image préentraînés

Résumé

Les données de nuages de points collectées dans des applications réelles sont souvent incomplètes. Les données manquent généralement en raison d'objets observés sous des angles partiels, qui ne capturent qu'une perspective ou un angle spécifique. De plus, les données peuvent être incomplètes en raison d'occlusions et d'un échantillonnage à faible résolution. Les approches existantes de complétion s'appuient sur des ensembles de données d'objets prédéfinis pour guider la complétion de nuages de points bruyants et incomplets. Cependant, ces approches obtiennent de mauvais résultats lorsqu'elles sont testées sur des objets hors distribution (Out-Of-Distribution, OOD), qui sont mal représentés dans l'ensemble de données d'entraînement. Ici, nous exploitons les avancées récentes en génération d'images guidée par texte, qui ont conduit à des percées majeures dans la génération de formes guidée par texte. Nous décrivons une approche appelée SDS-Complete qui utilise un modèle de diffusion pré-entraîné de texte à image et exploite la sémantique textuelle d'un nuage de points incomplet d'un objet donné, pour obtenir une représentation de surface complète. SDS-Complete peut compléter une variété d'objets en utilisant une optimisation au moment du test sans la collecte coûteuse d'informations 3D. Nous évaluons SDS-Complete sur des objets scannés incomplets, capturés par des capteurs de profondeur et des scanners LiDAR du monde réel. Nous constatons qu'il reconstruit efficacement des objets absents des ensembles de données courants, réduisant la perte de Chamfer de 50 % en moyenne par rapport aux méthodes actuelles. Page du projet : https://sds-complete.github.io/

English

Point-cloud data collected in real-world applications are often incomplete. Data is typically missing due to objects being observed from partial viewpoints, which only capture a specific perspective or angle. Additionally, data can be incomplete due to occlusion and low-resolution sampling. Existing completion approaches rely on datasets of predefined objects to guide the completion of noisy and incomplete, point clouds. However, these approaches perform poorly when tested on Out-Of-Distribution (OOD) objects, that are poorly represented in the training dataset. Here we leverage recent advances in text-guided image generation, which lead to major breakthroughs in text-guided shape generation. We describe an approach called SDS-Complete that uses a pre-trained text-to-image diffusion model and leverages the text semantics of a given incomplete point cloud of an object, to obtain a complete surface representation. SDS-Complete can complete a variety of objects using test-time optimization without expensive collection of 3D information. We evaluate SDS Complete on incomplete scanned objects, captured by real-world depth sensors and LiDAR scanners. We find that it effectively reconstructs objects that are absent from common datasets, reducing Chamfer loss by 50% on average compared with current methods. Project page: https://sds-complete.github.io/

Complétion de nuages de points avec des modèles de diffusion texte-image préentraînés

Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Résumé

Support