ChatPaper.aiChatPaper

3D-LFM: Modello Fondamentale di Sollevamento 3D

3D-LFM: Lifting Foundation Model

December 19, 2023
Autori: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI

Abstract

La ricostruzione della struttura 3D e della camera a partire da punti di riferimento 2D è alla base dell'intera disciplina della visione artificiale. I metodi tradizionali si sono limitati a oggetti rigidi specifici, come quelli nei problemi Perspective-n-Point (PnP), ma il deep learning ha ampliato la nostra capacità di ricostruire un'ampia gamma di classi di oggetti (ad esempio C3PDO e PAUL) con resilienza al rumore, alle occlusioni e alle distorsioni prospettiche. Tutte queste tecniche, tuttavia, sono state limitate dalla necessità fondamentale di stabilire corrispondenze nei dati di addestramento 3D, riducendo significativamente la loro utilità in applicazioni in cui si dispone di un'abbondanza di dati 3D "in corrispondenza". Il nostro approccio sfrutta l'equivarianza alle permutazioni intrinseca dei transformer per gestire un numero variabile di punti per ogni istanza di dati 3D, resistere alle occlusioni e generalizzare a categorie non viste. Dimostriamo prestazioni all'avanguardia nei benchmark di ricostruzione 2D-3D. Poiché il nostro approccio può essere addestrato su una così vasta classe di strutture, lo definiamo semplicemente come un Modello Fondamentale di Ricostruzione 3D (3D-LFM) — il primo nel suo genere.
English
The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
PDF153February 8, 2026