3D-LFM : Modèle Fondamental d'Élévation 3D
3D-LFM: Lifting Foundation Model
December 19, 2023
Auteurs: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI
Résumé
La reconstruction de la structure 3D et de la caméra à partir de points de repère 2D est au cœur de toute la discipline de la vision par ordinateur. Les méthodes traditionnelles se sont limitées à des objets rigides spécifiques, comme ceux des problèmes Perspective-n-Point (PnP), mais l'apprentissage profond a élargi notre capacité à reconstruire une large gamme de classes d'objets (par exemple, C3PDO et PAUL) avec une résilience au bruit, aux occlusions et aux distorsions de perspective. Cependant, toutes ces techniques ont été limitées par le besoin fondamental d'établir des correspondances dans les données d'entraînement 3D, ce qui restreint considérablement leur utilité aux applications où l'on dispose d'une abondance de données 3D "en correspondance". Notre approche exploite l'équivariance par permutation inhérente aux transformers pour gérer un nombre variable de points par instance de données 3D, résister aux occlusions et généraliser à des catégories non vues. Nous démontrons des performances de pointe sur les benchmarks de tâches de reconstruction 2D-3D. Puisque notre approche peut être entraînée sur une si large classe de structures, nous la qualifions simplement de modèle fondateur de reconstruction 3D (3D-LFM) — le premier du genre.
English
The lifting of 3D structure and camera from 2D landmarks is at the
cornerstone of the entire discipline of computer vision. Traditional methods
have been confined to specific rigid objects, such as those in
Perspective-n-Point (PnP) problems, but deep learning has expanded our
capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL)
with resilience to noise, occlusions, and perspective distortions. All these
techniques, however, have been limited by the fundamental need to establish
correspondences across the 3D training data -- significantly limiting their
utility to applications where one has an abundance of "in-correspondence" 3D
data. Our approach harnesses the inherent permutation equivariance of
transformers to manage varying number of points per 3D data instance,
withstands occlusions, and generalizes to unseen categories. We demonstrate
state of the art performance across 2D-3D lifting task benchmarks. Since our
approach can be trained across such a broad class of structures we refer to it
simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.