FoundationPose: Stima Unificata della Posizione 6D e Tracciamento di Oggetti Nuovi

Abstract

Presentiamo FoundationPose, un modello fondazionale unificato per la stima e il tracciamento della posa 6D di oggetti, che supporta sia configurazioni basate su modello che libere da modello. Il nostro approccio può essere applicato istantaneamente al momento del test a un nuovo oggetto senza necessità di fine-tuning, purché ne sia fornito il modello CAD o vengano acquisite un piccolo numero di immagini di riferimento. Colmiamo il divario tra queste due configurazioni con una rappresentazione neurale implicita che consente una sintesi efficace di nuove viste, mantenendo invariati i moduli di stima della posa a valle all'interno dello stesso framework unificato. Una forte generalizzabilità è ottenuta attraverso un addestramento su larga scala con dati sintetici, supportato da un modello linguistico di grandi dimensioni (LLM), una nuova architettura basata su transformer e una formulazione di apprendimento contrastivo. Una valutazione estensiva su più dataset pubblici che includono scenari e oggetti complessi indica che il nostro approccio unificato supera di gran lunga i metodi esistenti specializzati per ciascun compito. Inoltre, raggiunge risultati comparabili ai metodi a livello di istanza nonostante le ipotesi ridotte. Pagina del progetto: https://nvlabs.github.io/FoundationPose/

English

We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/

FoundationPose: Stima Unificata della Posizione 6D e Tracciamento di Oggetti Nuovi

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

Abstract

Support