ChatPaper.aiChatPaper

3D-LFM : Modèle Fondamental d'Élévation 3D

3D-LFM: Lifting Foundation Model

December 19, 2023
Auteurs: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI

Résumé

La reconstruction de la structure 3D et de la caméra à partir de points de repère 2D est au cœur de toute la discipline de la vision par ordinateur. Les méthodes traditionnelles se sont limitées à des objets rigides spécifiques, comme ceux des problèmes Perspective-n-Point (PnP), mais l'apprentissage profond a élargi notre capacité à reconstruire une large gamme de classes d'objets (par exemple, C3PDO et PAUL) avec une résilience au bruit, aux occlusions et aux distorsions de perspective. Cependant, toutes ces techniques ont été limitées par le besoin fondamental d'établir des correspondances dans les données d'entraînement 3D, ce qui restreint considérablement leur utilité aux applications où l'on dispose d'une abondance de données 3D "en correspondance". Notre approche exploite l'équivariance par permutation inhérente aux transformers pour gérer un nombre variable de points par instance de données 3D, résister aux occlusions et généraliser à des catégories non vues. Nous démontrons des performances de pointe sur les benchmarks de tâches de reconstruction 2D-3D. Puisque notre approche peut être entraînée sur une si large classe de structures, nous la qualifions simplement de modèle fondateur de reconstruction 3D (3D-LFM) — le premier du genre.
English
The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
PDF153December 15, 2024