ODIN: Un Modello Unico per la Percezione 2D e 3D

Abstract

I modelli all'avanguardia nei benchmark contemporanei di percezione 3D come ScanNet elaborano ed etichettano nuvole di punti 3D fornite dai dataset, ottenute attraverso il post-processing di immagini RGB-D multiview acquisite. Questi modelli sono tipicamente addestrati in dominio, rinunciano a un pre-addestramento su larga scala in 2D e superano le alternative che invece caratterizzano le immagini RGB-D multiview con pose. La differenza di prestazioni tra i metodi che elaborano immagini con pose rispetto a quelli che utilizzano nuvole di punti 3D post-processate ha alimentato la convinzione che la percezione 2D e 3D richieda architetture di modelli distinte. In questo articolo, mettiamo in discussione questa visione e proponiamo ODIN (Omni-Dimensional INstance segmentation), un modello in grado di segmentare ed etichettare sia immagini RGB 2D che nuvole di punti 3D, utilizzando un'architettura transformer che alterna la fusione di informazioni 2D intra-view e 3D cross-view. Il nostro modello differenzia le operazioni su feature 2D e 3D attraverso gli encoding posizionali dei token coinvolti, che catturano le coordinate dei pixel per i token di patch 2D e le coordinate 3D per i token di feature 3D. ODIN raggiunge prestazioni all'avanguardia sui benchmark di segmentazione di istanze 3D ScanNet200, Matterport3D e AI2THOR, e prestazioni competitive su ScanNet, S3DIS e COCO. Supera tutti i lavori precedenti con un ampio margine quando la nuvola di punti 3D acquisita viene utilizzata al posto della nuvola di punti campionata da una mesh 3D. Quando utilizzato come motore di percezione 3D in un'architettura di agente embodied istruibile, stabilisce un nuovo stato dell'arte sul benchmark TEACh per l'azione basata sul dialogo. Il nostro codice e i checkpoint sono disponibili sul sito del progetto: https://odin-seg.github.io.

English

State-of-the-art models on contemporary 3D perception benchmarks like ScanNet consume and label dataset-provided 3D point clouds, obtained through post processing of sensed multiview RGB-D images. They are typically trained in-domain, forego large-scale 2D pre-training and outperform alternatives that featurize the posed RGB-D multiview images instead. The gap in performance between methods that consume posed images versus post-processed 3D point clouds has fueled the belief that 2D and 3D perception require distinct model architectures. In this paper, we challenge this view and propose ODIN (Omni-Dimensional INstance segmentation), a model that can segment and label both 2D RGB images and 3D point clouds, using a transformer architecture that alternates between 2D within-view and 3D cross-view information fusion. Our model differentiates 2D and 3D feature operations through the positional encodings of the tokens involved, which capture pixel coordinates for 2D patch tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It outperforms all previous works by a wide margin when the sensed 3D point cloud is used in place of the point cloud sampled from 3D mesh. When used as the 3D perception engine in an instructable embodied agent architecture, it sets a new state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and checkpoints can be found at the project website: https://odin-seg.github.io.

ODIN: Un Modello Unico per la Percezione 2D e 3D

ODIN: A Single Model for 2D and 3D Perception

Abstract

Support