ChatPaper.aiChatPaper

3D-LFM: Modelo Fundacional de Elevación 3D

3D-LFM: Lifting Foundation Model

December 19, 2023
Autores: Mosam Dabhi, Laszlo A. Jeni, Simon Lucey
cs.AI

Resumen

La reconstrucción de estructuras 3D y cámaras a partir de puntos de referencia 2D es fundamental en toda la disciplina de la visión por computadora. Los métodos tradicionales se han limitado a objetos rígidos específicos, como los presentes en problemas de Perspectiva-n-Punto (PnP), pero el aprendizaje profundo ha ampliado nuestra capacidad para reconstruir una amplia gama de clases de objetos (por ejemplo, C3PDO y PAUL) con resistencia al ruido, oclusiones y distorsiones de perspectiva. Sin embargo, todas estas técnicas se han visto limitadas por la necesidad fundamental de establecer correspondencias en los datos de entrenamiento 3D, lo que restringe significativamente su utilidad a aplicaciones donde se dispone de una abundancia de datos 3D "en correspondencia". Nuestro enfoque aprovecha la equvarianza a permutaciones inherente de los transformadores para manejar un número variable de puntos por instancia de datos 3D, resistir oclusiones y generalizar a categorías no vistas. Demostramos un rendimiento de vanguardia en los puntos de referencia de tareas de reconstrucción 2D-3D. Dado que nuestro enfoque puede entrenarse en una clase tan amplia de estructuras, lo denominamos simplemente como un Modelo Fundacional de Reconstrucción 3D (3D-LFM, por sus siglas en inglés), el primero de su tipo.
English
The lifting of 3D structure and camera from 2D landmarks is at the cornerstone of the entire discipline of computer vision. Traditional methods have been confined to specific rigid objects, such as those in Perspective-n-Point (PnP) problems, but deep learning has expanded our capability to reconstruct a wide range of object classes (e.g. C3PDO and PAUL) with resilience to noise, occlusions, and perspective distortions. All these techniques, however, have been limited by the fundamental need to establish correspondences across the 3D training data -- significantly limiting their utility to applications where one has an abundance of "in-correspondence" 3D data. Our approach harnesses the inherent permutation equivariance of transformers to manage varying number of points per 3D data instance, withstands occlusions, and generalizes to unseen categories. We demonstrate state of the art performance across 2D-3D lifting task benchmarks. Since our approach can be trained across such a broad class of structures we refer to it simply as a 3D Lifting Foundation Model (3D-LFM) -- the first of its kind.
PDF153December 15, 2024