ChatPaper.aiChatPaper

FoundationPose: Estimação e Rastreamento Unificados de Pose 6D para Objetos Novos

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

December 13, 2023
Autores: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI

Resumo

Apresentamos o FoundationPose, um modelo de base unificado para estimação e rastreamento de pose 6D de objetos, suportando configurações baseadas em modelo e livres de modelo. Nossa abordagem pode ser aplicada instantaneamente em tempo de teste a um novo objeto sem necessidade de ajuste fino, desde que seu modelo CAD seja fornecido ou um pequeno número de imagens de referência seja capturado. Reduzimos a lacuna entre essas duas configurações com uma representação neural implícita que permite uma síntese eficaz de novas perspectivas, mantendo os módulos de estimação de pose subsequentes invariantes sob o mesmo framework unificado. Uma forte generalizabilidade é alcançada por meio de treinamento sintético em larga escala, auxiliado por um modelo de linguagem de grande escala (LLM), uma nova arquitetura baseada em transformers e uma formulação de aprendizado contrastivo. Avaliações extensas em múltiplos conjuntos de dados públicos envolvendo cenários e objetos desafiadores indicam que nossa abordagem unificada supera os métodos existentes especializados para cada tarefa por uma grande margem. Além disso, ela alcança resultados comparáveis aos métodos de nível de instância, apesar das suposições reduzidas. Página do projeto: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/
PDF131December 15, 2024