ODIN: Um Único Modelo para Percepção 2D e 3D
ODIN: A Single Model for 2D and 3D Perception
January 4, 2024
Autores: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI
Resumo
Modelos de última geração em benchmarks contemporâneos de percepção 3D, como o ScanNet, consomem e rotulam nuvens de pontos 3D fornecidas pelos conjuntos de dados, obtidas através do pós-processamento de imagens RGB-D multivista capturadas. Esses modelos são tipicamente treinados no domínio específico, dispensam o pré-treinamento em larga escala em 2D e superam alternativas que extraem características das imagens RGB-D multivista com pose. A diferença de desempenho entre métodos que consomem imagens com pose versus nuvens de pontos 3D pós-processadas alimentou a crença de que a percepção 2D e 3D requer arquiteturas de modelos distintas. Neste artigo, desafiamos essa visão e propomos o ODIN (Omni-Dimensional INstance segmentation), um modelo que pode segmentar e rotular tanto imagens RGB 2D quanto nuvens de pontos 3D, utilizando uma arquitetura de transformer que alterna entre a fusão de informações 2D intra-visão e 3D inter-visão. Nosso modelo diferencia as operações de características 2D e 3D através das codificações posicionais dos tokens envolvidos, que capturam coordenadas de pixels para tokens de patches 2D e coordenadas 3D para tokens de características 3D. O ODIN alcança desempenho de última geração nos benchmarks de segmentação de instâncias 3D ScanNet200, Matterport3D e AI2THOR, e desempenho competitivo no ScanNet, S3DIS e COCO. Ele supera todos os trabalhos anteriores por uma ampla margem quando a nuvem de pontos 3D capturada é usada no lugar da nuvem de pontos amostrada a partir de uma malha 3D. Quando usado como o motor de percepção 3D em uma arquitetura de agente incorporado instruível, ele estabelece um novo estado da arte no benchmark TEACh de ação a partir de diálogo. Nosso código e checkpoints podem ser encontrados no site do projeto: https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.