ChatPaper.aiChatPaper

Auf dem Weg zum Erlernen der Vollendung von allem in Lidar

Towards Learning to Complete Anything in Lidar

April 16, 2025
Autoren: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI

Zusammenfassung

Wir schlagen CAL (Complete Anything in Lidar) für die formbasierte Vervollständigung von Lidar-Daten in realen Umgebungen vor. Dies steht in engem Zusammenhang mit der semantischen/panoptischen Szenenvervollständigung auf Basis von Lidar-Daten. Allerdings können aktuelle Methoden nur Objekte vervollständigen und erkennen, die einem festen Vokabular entsprechen, das in bestehenden Lidar-Datensätzen annotiert ist. Im Gegensatz dazu nutzt unser Zero-Shot-Ansatz den zeitlichen Kontext aus multimodalen Sensordatensequenzen, um Objektformen und semantische Merkmale beobachteter Objekte zu extrahieren. Diese werden dann in ein rein auf Lidar basiertes Modell zur instanzbasierten Vervollständigung und Erkennung destilliert. Obwohl wir nur Teilform-Vervollständigungen extrahieren, zeigt sich, dass unser destilliertes Modell lernt, vollständige Objektformen aus mehreren solcher Teilbeobachtungen im gesamten Datensatz abzuleiten. Wir demonstrieren, dass unser Modell auf Standard-Benchmarks für semantische und panoptische Szenenvervollständigung angewendet werden kann, Objekte als (amodale) 3D-Bounding-Boxen lokalisiert und Objekte jenseits fester Klassenkategorien erkennt. Unsere Projektseite ist unter https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar zu finden.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar
PDF102April 17, 2025