Hacia el Aprendizaje para Completar Cualquier Cosa en LiDAR
Towards Learning to Complete Anything in Lidar
April 16, 2025
Autores: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI
Resumen
Proponemos CAL (Complete Anything in Lidar) para la completación de formas basada en Lidar en entornos no controlados. Esto está estrechamente relacionado con la completación semántica/panóptica de escenas basada en Lidar. Sin embargo, los métodos contemporáneos solo pueden completar y reconocer objetos de un vocabulario cerrado etiquetado en los conjuntos de datos de Lidar existentes. A diferencia de esto, nuestro enfoque zero-shot aprovecha el contexto temporal de secuencias de sensores multimodales para extraer formas de objetos y características semánticas de los objetos observados. Estas se destilan luego en un modelo de completación y reconocimiento a nivel de instancia que utiliza únicamente Lidar. Aunque solo extraemos completaciones parciales de formas, encontramos que nuestro modelo destilado aprende a inferir formas completas de objetos a partir de múltiples observaciones parciales en el conjunto de datos. Demostramos que nuestro modelo puede ser aplicado en puntos de referencia estándar para Completación Semántica y Panóptica de Escenas, localizar objetos como cajas delimitadoras 3D (amodales) y reconocer objetos más allá de vocabularios de clases fijos. Nuestra página del proyecto es https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion
in-the-wild. This is closely related to Lidar-based semantic/panoptic scene
completion. However, contemporary methods can only complete and recognize
objects from a closed vocabulary labeled in existing Lidar datasets. Different
to that, our zero-shot approach leverages the temporal context from multi-modal
sensor sequences to mine object shapes and semantic features of observed
objects. These are then distilled into a Lidar-only instance-level completion
and recognition model. Although we only mine partial shape completions, we find
that our distilled model learns to infer full object shapes from multiple such
partial observations across the dataset. We show that our model can be prompted
on standard benchmarks for Semantic and Panoptic Scene Completion, localize
objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class
vocabularies. Our project page is
https://research.nvidia.com/labs/dvl/projects/complete-anything-lidarSummary
AI-Generated Summary