ODIN: Um Único Modelo para Percepção 2D e 3D

Resumo

Modelos de última geração em benchmarks contemporâneos de percepção 3D, como o ScanNet, consomem e rotulam nuvens de pontos 3D fornecidas pelos conjuntos de dados, obtidas através do pós-processamento de imagens RGB-D multivista capturadas. Esses modelos são tipicamente treinados no domínio específico, dispensam o pré-treinamento em larga escala em 2D e superam alternativas que extraem características das imagens RGB-D multivista com pose. A diferença de desempenho entre métodos que consomem imagens com pose versus nuvens de pontos 3D pós-processadas alimentou a crença de que a percepção 2D e 3D requer arquiteturas de modelos distintas. Neste artigo, desafiamos essa visão e propomos o ODIN (Omni-Dimensional INstance segmentation), um modelo que pode segmentar e rotular tanto imagens RGB 2D quanto nuvens de pontos 3D, utilizando uma arquitetura de transformer que alterna entre a fusão de informações 2D intra-visão e 3D inter-visão. Nosso modelo diferencia as operações de características 2D e 3D através das codificações posicionais dos tokens envolvidos, que capturam coordenadas de pixels para tokens de patches 2D e coordenadas 3D para tokens de características 3D. O ODIN alcança desempenho de última geração nos benchmarks de segmentação de instâncias 3D ScanNet200, Matterport3D e AI2THOR, e desempenho competitivo no ScanNet, S3DIS e COCO. Ele supera todos os trabalhos anteriores por uma ampla margem quando a nuvem de pontos 3D capturada é usada no lugar da nuvem de pontos amostrada a partir de uma malha 3D. Quando usado como o motor de percepção 3D em uma arquitetura de agente incorporado instruível, ele estabelece um novo estado da arte no benchmark TEACh de ação a partir de diálogo. Nosso código e checkpoints podem ser encontrados no site do projeto: https://odin-seg.github.io.

English

State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.

ODIN: Um Único Modelo para Percepção 2D e 3D

ODIN: A Single Model for 2D and 3D Perception

Resumo

Support