ChatPaper.aiChatPaper

3D-LFM: Модель для поднятия фундаментальных представлений в 3D

3D-LFM: Lifting Foundation Model

December 19, 2023
Авторы: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI

Аннотация

Восстановление 3D-структуры и параметров камеры по 2D-опорным точкам лежит в основе всей дисциплины компьютерного зрения. Традиционные методы ограничивались конкретными жесткими объектами, такими как в задачах Perspective-n-Point (PnP), однако глубокое обучение расширило наши возможности для реконструкции широкого спектра классов объектов (например, C3PDO и PAUL) с устойчивостью к шумам, окклюзиям и перспективным искажениям. Однако все эти методы ограничены фундаментальной необходимостью установления соответствий в 3D-тренировочных данных, что существенно сужает их применимость к задачам, где доступно большое количество 3D-данных с установленными соответствиями. Наш подход использует присущую трансформерам эквивариантность к перестановкам для работы с переменным количеством точек в каждом экземпляре 3D-данных, устойчив к окклюзиям и обобщается на неизвестные категории. Мы демонстрируем передовые результаты на бенчмарках задач восстановления 2D-3D. Поскольку наш подход может быть обучен на таком широком классе структур, мы называем его просто 3D Lifting Foundation Model (3D-LFM) — первой в своем роде.
English
The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
PDF153December 15, 2024