Vers l'apprentissage de la complétion universelle dans les données LiDAR
Towards Learning to Complete Anything in Lidar
April 16, 2025
Auteurs: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI
Résumé
Nous proposons CAL (Complete Anything in Lidar) pour la complétion de formes basée sur Lidar en conditions réelles. Cette approche est étroitement liée à la complétion sémantique/panoptique de scènes basée sur Lidar. Cependant, les méthodes contemporaines ne peuvent compléter et reconnaître que des objets appartenant à un vocabulaire fermé étiqueté dans les jeux de données Lidar existants. Contrairement à cela, notre approche zero-shot exploite le contexte temporel issu de séquences de capteurs multi-modaux pour extraire les formes d'objets et les caractéristiques sémantiques des objets observés. Ces informations sont ensuite distillées dans un modèle de complétion et de reconnaissance au niveau des instances, fonctionnant uniquement avec des données Lidar. Bien que nous n'extrayions que des complétions partielles de formes, nous constatons que notre modèle distillé apprend à inférer des formes d'objets complètes à partir de multiples observations partielles à travers le jeu de données. Nous démontrons que notre modèle peut être sollicité sur des benchmarks standards pour la Complétion Sémantique et Panoptique de Scènes, localiser des objets sous forme de boîtes englobantes 3D (amodales), et reconnaître des objets au-delà des vocabulaires de classes prédéfinis. Notre page de projet est disponible à l'adresse suivante : https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion
in-the-wild. This is closely related to Lidar-based semantic/panoptic scene
completion. However, contemporary methods can only complete and recognize
objects from a closed vocabulary labeled in existing Lidar datasets. Different
to that, our zero-shot approach leverages the temporal context from multi-modal
sensor sequences to mine object shapes and semantic features of observed
objects. These are then distilled into a Lidar-only instance-level completion
and recognition model. Although we only mine partial shape completions, we find
that our distilled model learns to infer full object shapes from multiple such
partial observations across the dataset. We show that our model can be prompted
on standard benchmarks for Semantic and Panoptic Scene Completion, localize
objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class
vocabularies. Our project page is
https://research.nvidia.com/labs/dvl/projects/complete-anything-lidarSummary
AI-Generated Summary