ChatPaper.aiChatPaper

ODIN : Un modèle unique pour la perception 2D et 3D

ODIN: A Single Model for 2D and 3D Perception

January 4, 2024
Auteurs: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI

Résumé

Les modèles de pointe sur les benchmarks contemporains de perception 3D comme ScanNet consomment et étiquettent des nuages de points 3D fournis par les jeux de données, obtenus par post-traitement d'images RGB-D multivues capturées. Ils sont généralement entraînés en domaine spécifique, renoncent à un pré-entraînement 2D à grande échelle et surpassent les alternatives qui caractérisent les images RGB-D multivues posées à la place. L'écart de performance entre les méthodes qui consomment des images posées et celles utilisant des nuages de points 3D post-traités a renforcé la croyance que la perception 2D et 3D nécessitent des architectures de modèles distinctes. Dans cet article, nous remettons en cause cette vision et proposons ODIN (Omni-Dimensional INstance segmentation), un modèle capable de segmenter et d'étiqueter à la fois des images RGB 2D et des nuages de points 3D, en utilisant une architecture de transformateur qui alterne entre la fusion d'informations 2D intra-vue et 3D inter-vues. Notre modèle différencie les opérations de caractéristiques 2D et 3D à travers les encodages positionnels des tokens impliqués, qui capturent les coordonnées de pixels pour les tokens de patchs 2D et les coordonnées 3D pour les tokens de caractéristiques 3D. ODIN atteint des performances de pointe sur les benchmarks de segmentation d'instances 3D ScanNet200, Matterport3D et AI2THOR, et des performances compétitives sur ScanNet, S3DIS et COCO. Il surpasse tous les travaux précédents par une large marge lorsque le nuage de points 3D capturé est utilisé à la place du nuage de points échantillonné à partir d'un maillage 3D. Lorsqu'il est utilisé comme moteur de perception 3D dans une architecture d'agent incarné instructable, il établit un nouvel état de l'art sur le benchmark TEACh d'action à partir de dialogue. Notre code et nos points de contrôle peuvent être trouvés sur le site du projet : https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.
PDF131December 15, 2024