FoundationPose : Estimation et suivi unifiés de la pose 6D d'objets nouveaux
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
December 13, 2023
Auteurs: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI
Résumé
Nous présentons FoundationPose, un modèle de fondation unifié pour l'estimation et le suivi de la pose 6D d'objets, prenant en charge à la fois les configurations basées sur un modèle et sans modèle. Notre approche peut être appliquée instantanément lors des tests à un nouvel objet sans nécessiter de réglage fin, à condition que son modèle CAO soit fourni ou qu'un petit nombre d'images de référence soient capturées. Nous comblons l'écart entre ces deux configurations grâce à une représentation implicite neuronale qui permet une synthèse efficace de nouvelles vues, tout en maintenant les modules d'estimation de pose invariants dans le même cadre unifié. Une forte généralisabilité est obtenue via un entraînement synthétique à grande échelle, soutenu par un grand modèle de langage (LLM), une nouvelle architecture basée sur les transformateurs et une formulation d'apprentissage contrastif. Une évaluation approfondie sur plusieurs ensembles de données publics impliquant des scénarios et des objets complexes montre que notre approche unifiée surpasse largement les méthodes existantes spécialisées pour chaque tâche. De plus, elle atteint même des résultats comparables aux méthodes au niveau de l'instance malgré des hypothèses réduites. Page du projet : https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose
estimation and tracking, supporting both model-based and model-free setups. Our
approach can be instantly applied at test-time to a novel object without
fine-tuning, as long as its CAD model is given, or a small number of reference
images are captured. We bridge the gap between these two setups with a neural
implicit representation that allows for effective novel view synthesis, keeping
the downstream pose estimation modules invariant under the same unified
framework. Strong generalizability is achieved via large-scale synthetic
training, aided by a large language model (LLM), a novel transformer-based
architecture, and contrastive learning formulation. Extensive evaluation on
multiple public datasets involving challenging scenarios and objects indicate
our unified approach outperforms existing methods specialized for each task by
a large margin. In addition, it even achieves comparable results to
instance-level methods despite the reduced assumptions. Project page:
https://nvlabs.github.io/FoundationPose/