FoundationPose: Estimación y Seguimiento Unificados de la Pose 6D para Objetos Novedosos
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
December 13, 2023
Autores: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI
Resumen
Presentamos FoundationPose, un modelo fundacional unificado para la estimación y seguimiento de la pose 6D de objetos, compatible tanto con configuraciones basadas en modelos como libres de modelos. Nuestro enfoque puede aplicarse instantáneamente en tiempo de prueba a un objeto nuevo sin necesidad de ajuste fino, siempre que se proporcione su modelo CAD o se capture un pequeño número de imágenes de referencia. Cerramos la brecha entre estas dos configuraciones mediante una representación implícita neuronal que permite una síntesis efectiva de nuevas vistas, manteniendo los módulos de estimación de pose invariantes bajo el mismo marco unificado. Se logra una fuerte generalizabilidad mediante entrenamiento sintético a gran escala, asistido por un modelo de lenguaje grande (LLM), una arquitectura novedosa basada en transformadores y una formulación de aprendizaje contrastivo. Una evaluación extensa en múltiples conjuntos de datos públicos que involucran escenarios y objetos desafiantes indica que nuestro enfoque unificado supera ampliamente a los métodos existentes especializados para cada tarea. Además, incluso alcanza resultados comparables a los métodos a nivel de instancia a pesar de las suposiciones reducidas. Página del proyecto: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose
estimation and tracking, supporting both model-based and model-free setups. Our
approach can be instantly applied at test-time to a novel object without
fine-tuning, as long as its CAD model is given, or a small number of reference
images are captured. We bridge the gap between these two setups with a neural
implicit representation that allows for effective novel view synthesis, keeping
the downstream pose estimation modules invariant under the same unified
framework. Strong generalizability is achieved via large-scale synthetic
training, aided by a large language model (LLM), a novel transformer-based
architecture, and contrastive learning formulation. Extensive evaluation on
multiple public datasets involving challenging scenarios and objects indicate
our unified approach outperforms existing methods specialized for each task by
a large margin. In addition, it even achieves comparable results to
instance-level methods despite the reduced assumptions. Project page:
https://nvlabs.github.io/FoundationPose/