Em Direção à Aprendizagem para Completar Qualquer Coisa em Lidar
Towards Learning to Complete Anything in Lidar
April 16, 2025
Autores: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI
Resumo
Propomos o CAL (Complete Anything in Lidar) para a conclusão de formas baseada em Lidar em ambientes reais. Isso está intimamente relacionado à conclusão semântica/panóptica de cenas baseada em Lidar. No entanto, os métodos contemporâneos só conseguem completar e reconhecer objetos a partir de um vocabulário fechado rotulado em conjuntos de dados Lidar existentes. Diferentemente disso, nossa abordagem zero-shot aproveita o contexto temporal de sequências de sensores multimodais para extrair formas de objetos e características semânticas dos objetos observados. Esses dados são então destilados em um modelo de conclusão e reconhecimento em nível de instância que utiliza apenas Lidar. Embora extraiamos apenas conclusões parciais de formas, descobrimos que nosso modelo destilado aprende a inferir formas completas de objetos a partir de múltiplas observações parciais ao longo do conjunto de dados. Demonstramos que nosso modelo pode ser aplicado em benchmarks padrão para Conclusão Semântica e Panóptica de Cenas, localizar objetos como caixas delimitadoras 3D (amodais) e reconhecer objetos além de vocabulários de classes fixos. Nossa página do projeto está disponível em https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion
in-the-wild. This is closely related to Lidar-based semantic/panoptic scene
completion. However, contemporary methods can only complete and recognize
objects from a closed vocabulary labeled in existing Lidar datasets. Different
to that, our zero-shot approach leverages the temporal context from multi-modal
sensor sequences to mine object shapes and semantic features of observed
objects. These are then distilled into a Lidar-only instance-level completion
and recognition model. Although we only mine partial shape completions, we find
that our distilled model learns to infer full object shapes from multiple such
partial observations across the dataset. We show that our model can be prompted
on standard benchmarks for Semantic and Panoptic Scene Completion, localize
objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class
vocabularies. Our project page is
https://research.nvidia.com/labs/dvl/projects/complete-anything-lidarSummary
AI-Generated Summary