ChatPaper.aiChatPaper

3D-LFM: Het Optillen van het Fundamentmodel

3D-LFM: Lifting Foundation Model

December 19, 2023
Auteurs: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI

Samenvatting

Het afleiden van 3D-structuur en camera uit 2D-landmarken vormt de hoeksteen van het hele vakgebied van computervisie. Traditionele methoden waren beperkt tot specifieke rigide objecten, zoals die in Perspective-n-Point (PnP)-problemen, maar deep learning heeft onze mogelijkheden uitgebreid om een breed scala aan objectklassen te reconstrueren (bijv. C3PDO en PAUL) met weerbaarheid tegen ruis, occlusies en perspectiefvervormingen. Al deze technieken zijn echter beperkt door de fundamentele noodzaak om correspondenties vast te stellen in de 3D-trainingsdata – wat hun bruikbaarheid aanzienlijk beperkt tot toepassingen waar men overvloedig "in-correspondentie" 3D-data heeft. Onze aanpak benut de inherente permutatie-equivariantie van transformers om te kunnen omgaan met een variërend aantal punten per 3D-data-instantie, bestand te zijn tegen occlusies en te generaliseren naar onbekende categorieën. We demonstreren state-of-the-art prestaties op benchmarks voor 2D-3D-liftingtaken. Omdat onze aanpak getraind kan worden over zo'n brede klasse van structuren, noemen we het simpelweg een 3D Lifting Foundation Model (3D-LFM) – de eerste in zijn soort.
English
The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
PDF153February 8, 2026