3D-LFM: Hebbares Grundlagenmodell
3D-LFM: Lifting Foundation Model
December 19, 2023
Autoren: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI
Zusammenfassung
Die Rekonstruktion von 3D-Strukturen und Kameras aus 2D-Landmarken bildet das Fundament der gesamten Disziplin der Computer Vision. Traditionelle Methoden waren auf spezifische starre Objekte beschränkt, wie sie in Perspective-n-Point (PnP)-Problemen vorkommen, aber Deep Learning hat unsere Fähigkeit erweitert, eine breite Palette von Objektklassen (z. B. C3PDO und PAUL) mit Widerstandsfähigkeit gegenüber Rauschen, Verdeckungen und perspektivischen Verzerrungen zu rekonstruieren. All diese Techniken waren jedoch durch die grundlegende Notwendigkeit eingeschränkt, Korrespondenzen in den 3D-Trainingsdaten herzustellen – was ihre Anwendbarkeit erheblich auf Szenarien beschränkt, in denen eine Fülle von „korrespondierenden“ 3D-Daten vorhanden ist. Unser Ansatz nutzt die inhärente Permutationsäquivarianz von Transformern, um mit einer variierenden Anzahl von Punkten pro 3D-Dateninstanz umzugehen, Verdeckungen zu bewältigen und auf unbekannte Kategorien zu verallgemeinern. Wir demonstrieren state-of-the-art Leistungen in Benchmarks für 2D-3D-Rekonstruktionsaufgaben. Da unser Ansatz über eine so breite Klasse von Strukturen trainiert werden kann, bezeichnen wir ihn einfach als 3D Lifting Foundation Model (3D-LFM) – das erste Modell seiner Art.
English
The lifting of 3D structure and camera from 2D landmarks is at the
cornerstone of the entire discipline of computer vision. Traditional methods
have been confined to specific rigid objects, such as those in
Perspective-n-Point (PnP) problems, but deep learning has expanded our
capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL)
with resilience to noise, occlusions, and perspective distortions. All these
techniques, however, have been limited by the fundamental need to establish
correspondences across the 3D training data -- significantly limiting their
utility to applications where one has an abundance of "in-correspondence" 3D
data. Our approach harnesses the inherent permutation equivariance of
transformers to manage varying number of points per 3D data instance,
withstands occlusions, and generalizes to unseen categories. We demonstrate
state of the art performance across 2D-3D lifting task benchmarks. Since our
approach can be trained across such a broad class of structures we refer to it
simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.