Punktwolken-Vervollständigung mit vortrainierten Text-zu-Bild-Diffusionsmodellen
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models
June 18, 2023
Autoren: Yoni Kasten, Ohad Rahamim, Gal Chechik
cs.AI
Zusammenfassung
Punktwolkendaten, die in realen Anwendungen gesammelt werden, sind oft unvollständig. Daten fehlen typischerweise, weil Objekte aus Teilperspektiven betrachtet werden, die nur einen bestimmten Blickwinkel oder eine bestimmte Ansicht erfassen. Darüber hinaus können Daten aufgrund von Verdeckungen und niedrigauflösender Abtastung unvollständig sein. Bestehende Vervollständigungsansätze stützen sich auf Datensätze vordefinierter Objekte, um die Vervollständigung von verrauschten und unvollständigen Punktwolken zu leiten. Diese Ansätze schneiden jedoch schlecht ab, wenn sie an Out-Of-Distribution (OOD)-Objekten getestet werden, die im Trainingsdatensatz nur unzureichend repräsentiert sind. Hier nutzen wir jüngste Fortschritte in der textgesteuerten Bildgenerierung, die zu bedeutenden Durchbrüchen in der textgesteuerten Formgenerierung geführt haben. Wir beschreiben einen Ansatz namens SDS-Complete, der ein vortrainiertes Text-zu-Bild-Diffusionsmodell verwendet und die Textsemantik einer gegebenen unvollständigen Punktwolke eines Objekts nutzt, um eine vollständige Oberflächendarstellung zu erhalten. SDS-Complete kann eine Vielzahl von Objekten durch Testzeitoptimierung vervollständigen, ohne dass teure 3D-Informationen gesammelt werden müssen. Wir evaluieren SDS-Complete an unvollständig gescannten Objekten, die von realen Tiefensensoren und LiDAR-Scannern erfasst wurden. Wir stellen fest, dass es Objekte, die in gängigen Datensätzen nicht vorhanden sind, effektiv rekonstruiert und den Chamfer-Verlust im Durchschnitt um 50 % im Vergleich zu aktuellen Methoden reduziert. Projektseite: https://sds-complete.github.io/
English
Point-cloud data collected in real-world applications are often incomplete.
Data is typically missing due to objects being observed from partial
viewpoints, which only capture a specific perspective or angle. Additionally,
data can be incomplete due to occlusion and low-resolution sampling. Existing
completion approaches rely on datasets of predefined objects to guide the
completion of noisy and incomplete, point clouds. However, these approaches
perform poorly when tested on Out-Of-Distribution (OOD) objects, that are
poorly represented in the training dataset. Here we leverage recent advances in
text-guided image generation, which lead to major breakthroughs in text-guided
shape generation. We describe an approach called SDS-Complete that uses a
pre-trained text-to-image diffusion model and leverages the text semantics of a
given incomplete point cloud of an object, to obtain a complete surface
representation. SDS-Complete can complete a variety of objects using test-time
optimization without expensive collection of 3D information. We evaluate SDS
Complete on incomplete scanned objects, captured by real-world depth sensors
and LiDAR scanners. We find that it effectively reconstructs objects that are
absent from common datasets, reducing Chamfer loss by 50% on average compared
with current methods. Project page: https://sds-complete.github.io/