3D-LFM: Modelo de Base de Elevação 3D
3D-LFM: Lifting Foundation Model
December 19, 2023
Autores: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI
Resumo
A reconstrução da estrutura 3D e da câmera a partir de pontos de referência 2D está no cerne de toda a disciplina de visão computacional. Métodos tradicionais foram limitados a objetos rígidos específicos, como aqueles encontrados em problemas de Perspectiva-n-Pontos (PnP), mas o aprendizado profundo expandiu nossa capacidade de reconstruir uma ampla gama de classes de objetos (por exemplo, C3PDO e PAUL) com resiliência a ruídos, oclusões e distorções de perspectiva. No entanto, todas essas técnicas foram limitadas pela necessidade fundamental de estabelecer correspondências nos dados de treinamento 3D — o que restringe significativamente sua utilidade a aplicações onde há uma abundância de dados 3D "correspondentes". Nossa abordagem aproveita a equivariância inerente a permutações dos transformers para lidar com um número variável de pontos por instância de dados 3D, resistir a oclusões e generalizar para categorias não vistas. Demonstramos desempenho de ponta em benchmarks de tarefas de reconstrução 2D-3D. Como nossa abordagem pode ser treinada em uma ampla classe de estruturas, referimo-nos a ela simplesmente como um Modelo de Fundação para Reconstrução 3D (3D-LFM) — o primeiro do gênero.
English
The lifting of 3D structure and camera from 2D landmarks is at the
cornerstone of the entire discipline of computer vision. Traditional methods
have been confined to specific rigid objects, such as those in
Perspective-n-Point (PnP) problems, but deep learning has expanded our
capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL)
with resilience to noise, occlusions, and perspective distortions. All these
techniques, however, have been limited by the fundamental need to establish
correspondences across the 3D training data -- significantly limiting their
utility to applications where one has an abundance of "in-correspondence" 3D
data. Our approach harnesses the inherent permutation equivariance of
transformers to manage varying number of points per 3D data instance,
withstands occlusions, and generalizes to unseen categories. We demonstrate
state of the art performance across 2D-3D lifting task benchmarks. Since our
approach can be trained across such a broad class of structures we refer to it
simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.