ChatPaper.aiChatPaper

Naar het leren om alles in LiDAR te voltooien

Towards Learning to Complete Anything in Lidar

April 16, 2025
Auteurs: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI

Samenvatting

Wij stellen CAL (Complete Anything in Lidar) voor voor vormvoltooiing op basis van Lidar in ongestructureerde omgevingen. Dit is nauw verwant aan semantische/panoptische scènevoltooiing op basis van Lidar. Hedendaagse methoden kunnen echter alleen objecten voltooien en herkennen uit een gesloten vocabulaire dat is gelabeld in bestaande Lidar-datasets. In tegenstelling daartoe maakt onze zero-shot-benadering gebruik van de temporele context uit multi-modale sensorsequenties om objectvormen en semantische kenmerken van waargenomen objecten te extraheren. Deze worden vervolgens gedistilleerd in een model voor instantie-niveau voltooiing en herkenning dat uitsluitend op Lidar is gebaseerd. Hoewel we slechts gedeeltelijke vormvoltooiingen extraheren, ontdekken we dat ons gedistilleerde model leert om volledige objectvormen af te leiden uit meerdere van dergelijke gedeeltelijke waarnemingen in de dataset. We tonen aan dat ons model kan worden ingezet op standaard benchmarks voor Semantische en Panoptische Scènevoltooiing, objecten kan lokaliseren als (amodale) 3D begrenzingsvakken, en objecten kan herkennen die buiten vaste klassevocabulaires vallen. Onze projectpagina is te vinden op https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar

Summary

AI-Generated Summary

PDF102April 17, 2025