ODIN: Ein einheitliches Modell für 2D- und 3D-Wahrnehmung

papers.abstract

State-of-the-art-Modelle auf zeitgenössischen 3D-Wahrnehmungsbenchmarks wie ScanNet verarbeiten und beschriften bereitgestellte 3D-Punktwolken aus Datensätzen, die durch Nachbearbeitung von erfassten multiview RGB-D-Bildern gewonnen werden. Sie werden typischerweise in-domain trainiert, verzichten auf groß angelegtes 2D-Pre-Training und übertreffen Alternativen, die die gerichteten RGB-D-Multiview-Bilder anstelle der 3D-Punktwolken verarbeiten. Die Leistungslücke zwischen Methoden, die gerichtete Bilder gegenüber nachbearbeiteten 3D-Punktwolken verwenden, hat die Ansicht gefördert, dass 2D- und 3D-Wahrnehmung unterschiedliche Modellarchitekturen erfordern. In diesem Papier stellen wir diese Ansicht in Frage und schlagen ODIN (Omni-Dimensional INstance Segmentation) vor, ein Modell, das sowohl 2D-RGB-Bilder als auch 3D-Punktwolken segmentieren und beschriften kann, indem es eine Transformer-Architektur verwendet, die zwischen 2D-Within-View- und 3D-Cross-View-Informationsfusion wechselt. Unser Modell unterscheidet 2D- und 3D-Feature-Operationen durch die Positionskodierungen der beteiligten Tokens, die Pixelkoordinaten für 2D-Patch-Tokens und 3D-Koordinaten für 3D-Feature-Tokens erfassen. ODIN erreicht state-of-the-art-Leistung auf den 3D-Instanzsegmentierungsbenchmarks ScanNet200, Matterport3D und AI2THOR sowie wettbewerbsfähige Leistung auf ScanNet, S3DIS und COCO. Es übertrifft alle bisherigen Arbeiten mit großem Abstand, wenn die erfasste 3D-Punktwolke anstelle der aus einem 3D-Mesh abgetasteten Punktwolke verwendet wird. Wenn es als 3D-Wahrnehmungsengine in einer instruierbaren Embodied-Agent-Architektur eingesetzt wird, setzt es einen neuen State-of-the-art auf dem TEACh-Action-from-Dialogue-Benchmark. Unser Code und unsere Checkpoints finden sich auf der Projektwebsite: https://odin-seg.github.io.

English

State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.

ODIN: Ein einheitliches Modell für 2D- und 3D-Wahrnehmung

ODIN: A Single Model for 2D and 3D Perception

papers.abstract

Support