ODIN: Un Modelo Único para Percepción en 2D y 3D
ODIN: A Single Model for 2D and 3D Perception
January 4, 2024
Autores: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI
Resumen
Los modelos de vanguardia en los benchmarks contemporáneos de percepción 3D, como ScanNet, consumen y etiquetan nubes de puntos 3D proporcionadas por el conjunto de datos, obtenidas mediante el procesamiento posterior de imágenes RGB-D multivista captadas por sensores. Estos modelos suelen entrenarse en el mismo dominio, prescinden del preentrenamiento a gran escala en 2D y superan a las alternativas que extraen características de las imágenes RGB-D multivista con pose. La brecha en el rendimiento entre los métodos que consumen imágenes con pose y aquellos que utilizan nubes de puntos 3D procesadas ha alimentado la creencia de que la percepción en 2D y 3D requiere arquitecturas de modelos distintas. En este artículo, cuestionamos esta perspectiva y proponemos ODIN (Omni-Dimensional INstance segmentation), un modelo que puede segmentar y etiquetar tanto imágenes RGB en 2D como nubes de puntos en 3D, utilizando una arquitectura de transformadores que alterna entre la fusión de información 2D dentro de la vista y 3D entre vistas. Nuestro modelo diferencia las operaciones de características en 2D y 3D mediante las codificaciones posicionales de los tokens involucrados, que capturan las coordenadas de píxeles para los tokens de parches en 2D y las coordenadas 3D para los tokens de características en 3D. ODIN logra un rendimiento de vanguardia en los benchmarks de segmentación de instancias 3D ScanNet200, Matterport3D y AI2THOR, y un rendimiento competitivo en ScanNet, S3DIS y COCO. Supera ampliamente a todos los trabajos anteriores cuando se utiliza la nube de puntos 3D captada por sensores en lugar de la nube de puntos muestreada a partir de una malla 3D. Cuando se utiliza como motor de percepción 3D en una arquitectura de agente encarnado instruible, establece un nuevo estado del arte en el benchmark TEACh de acción a partir de diálogo. Nuestro código y puntos de control están disponibles en el sitio web del proyecto: https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.