ChatPaper.aiChatPaper

ODIN: Een Enkel Model voor 2D- en 3D-waarneming

ODIN: A Single Model for 2D and 3D Perception

January 4, 2024
Auteurs: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI

Samenvatting

State-of-the-art modellen op hedendaagse 3D-perceptiebenchmarks zoals ScanNet verwerken en labelen 3D-puntenwolken die door datasets worden aangeleverd, verkregen via nabewerking van waargenomen multiview RGB-D-beelden. Ze worden doorgaans in-domein getraind, slaan grootschalige 2D-pre-training over en presteren beter dan alternatieven die de gepositioneerde RGB-D-multiview-beelden verwerken. Het prestatieverschil tussen methoden die gepositioneerde beelden verwerken versus nabewerkte 3D-puntenwolken heeft de overtuiging aangewakkerd dat 2D- en 3D-perceptie verschillende modelarchitecturen vereisen. In dit artikel dagen we deze visie uit en stellen we ODIN (Omni-Dimensional INstance segmentation) voor, een model dat zowel 2D RGB-beelden als 3D-puntenwolken kan segmenteren en labelen, met behulp van een transformer-architectuur die afwisselt tussen 2D within-view en 3D cross-view informatie-fusie. Ons model onderscheidt 2D- en 3D-featurebewerkingen via de positionele coderingen van de betrokken tokens, die pixelcoördinaten vastleggen voor 2D-patchtokens en 3D-coördinaten voor 3D-featuretokens. ODIN behaalt state-of-the-art prestaties op de ScanNet200, Matterport3D en AI2THOR 3D-instance-segmentatiebenchmarks, en competitieve prestaties op ScanNet, S3DIS en COCO. Het overtreft alle vorige werken met een ruime marge wanneer de waargenomen 3D-puntenwolk wordt gebruikt in plaats van de puntenwolk die uit een 3D-mesh is bemonsterd. Wanneer het wordt gebruikt als de 3D-perceptie-engine in een instructeerbare embodied agent-architectuur, stelt het een nieuwe state-of-the-art op de TEACh action-from-dialogue benchmark. Onze code en checkpoints zijn te vinden op de projectwebsite: https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.
PDF131February 8, 2026