ODIN: Un Modello Unico per la Percezione 2D e 3D
ODIN: A Single Model for 2D and 3D Perception
January 4, 2024
Autori: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI
Abstract
I modelli all'avanguardia nei benchmark contemporanei di percezione 3D come ScanNet elaborano ed etichettano nuvole di punti 3D fornite dai dataset, ottenute attraverso il post-processing di immagini RGB-D multiview acquisite. Questi modelli sono tipicamente addestrati in dominio, rinunciano a un pre-addestramento su larga scala in 2D e superano le alternative che invece caratterizzano le immagini RGB-D multiview con pose. La differenza di prestazioni tra i metodi che elaborano immagini con pose rispetto a quelli che utilizzano nuvole di punti 3D post-processate ha alimentato la convinzione che la percezione 2D e 3D richieda architetture di modelli distinte. In questo articolo, mettiamo in discussione questa visione e proponiamo ODIN (Omni-Dimensional INstance segmentation), un modello in grado di segmentare ed etichettare sia immagini RGB 2D che nuvole di punti 3D, utilizzando un'architettura transformer che alterna la fusione di informazioni 2D intra-view e 3D cross-view. Il nostro modello differenzia le operazioni su feature 2D e 3D attraverso gli encoding posizionali dei token coinvolti, che catturano le coordinate dei pixel per i token di patch 2D e le coordinate 3D per i token di feature 3D. ODIN raggiunge prestazioni all'avanguardia sui benchmark di segmentazione di istanze 3D ScanNet200, Matterport3D e AI2THOR, e prestazioni competitive su ScanNet, S3DIS e COCO. Supera tutti i lavori precedenti con un ampio margine quando la nuvola di punti 3D acquisita viene utilizzata al posto della nuvola di punti campionata da una mesh 3D. Quando utilizzato come motore di percezione 3D in un'architettura di agente embodied istruibile, stabilisce un nuovo stato dell'arte sul benchmark TEACh per l'azione basata sul dialogo. Il nostro codice e i checkpoint sono disponibili sul sito del progetto: https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.