ChatPaper.aiChatPaper

LiDARにおけるあらゆるタスクの完遂に向けて

Towards Learning to Complete Anything in Lidar

April 16, 2025
著者: Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep
cs.AI

要旨

本論文では、Lidarベースの形状補完を実現するCAL(Complete Anything in Lidar)を提案します。これは、Lidarベースの意味的/パノプティックシーン補完と密接に関連しています。しかし、既存のLidarデータセットにラベル付けされた閉じた語彙からしか物体を補完・認識できない従来手法とは異なり、我々のゼロショットアプローチでは、マルチモーダルセンサーシーケンスから得られる時間的文脈を活用して、観測された物体の形状と意味的特徴を抽出します。これらはその後、Lidarのみのインスタンスレベル補完・認識モデルに蒸留されます。部分的な形状補完しか抽出していないにもかかわらず、我々の蒸留モデルは、データセット全体にわたる複数の部分観測から完全な物体形状を推論することを学習します。我々のモデルが、意味的およびパノプティックシーン補完の標準ベンチマークでプロンプトされ、物体を(アモーダルな)3Dバウンディングボックスとして位置特定し、固定クラス語彙を超えて物体を認識できることを示します。プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/complete-anything-lidarです。
English
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar

Summary

AI-Generated Summary

PDF102April 17, 2025