К обучению завершению любых данных в лидарных системах
Towards Learning to Complete Anything in Lidar
April 16, 2025
Авторы: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI
Аннотация
Мы представляем CAL (Complete Anything in Lidar) для завершения форм на основе данных лидара в реальных условиях. Этот подход тесно связан с семантическим/паноптическим завершением сцен на основе лидара. Однако современные методы способны завершать и распознавать объекты только из закрытого набора классов, представленного в существующих наборах данных лидара. В отличие от них, наш метод с нулевым обучением использует временной контекст из мультимодальных последовательностей сенсоров для извлечения форм объектов и их семантических характеристик. Эти данные затем преобразуются в модель завершения и распознавания на уровне экземпляров, работающую исключительно с лидаром. Хотя мы извлекаем только частичные завершения форм, наша модель учится выводить полные формы объектов на основе множества таких частичных наблюдений по всему набору данных. Мы демонстрируем, что нашу модель можно применять на стандартных тестах для семантического и паноптического завершения сцен, локализовать объекты в виде (амодальных) 3D ограничивающих рамок и распознавать объекты за пределами фиксированных наборов классов. Страница проекта доступна по адресу: https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion
in-the-wild. This is closely related to Lidar-based semantic/panoptic scene
completion. However, contemporary methods can only complete and recognize
objects from a closed vocabulary labeled in existing Lidar datasets. Different
to that, our zero-shot approach leverages the temporal context from multi-modal
sensor sequences to mine object shapes and semantic features of observed
objects. These are then distilled into a Lidar-only instance-level completion
and recognition model. Although we only mine partial shape completions, we find
that our distilled model learns to infer full object shapes from multiple such
partial observations across the dataset. We show that our model can be prompted
on standard benchmarks for Semantic and Panoptic Scene Completion, localize
objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class
vocabularies. Our project page is
https://research.nvidia.com/labs/dvl/projects/complete-anything-lidarSummary
AI-Generated Summary