FoundationPose: Geïntegreerde 6D Pose-schatting en tracking van nieuwe objecten
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
December 13, 2023
Auteurs: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI
Samenvatting
We presenteren FoundationPose, een geïntegreerd foundation model voor 6D objectpose-schatting en -tracking, dat zowel modelgebaseerde als modelvrije opstellingen ondersteunt. Onze aanpak kan direct tijdens testtijd worden toegepast op een nieuw object zonder fine-tuning, zolang het CAD-model beschikbaar is of een klein aantal referentiebeelden is vastgelegd. We overbruggen de kloof tussen deze twee opstellingen met een neurale impliciete representatie die effectieve synthese van nieuwe aanzichten mogelijk maakt, waardoor de downstream pose-schattingsmodules invariant blijven binnen hetzelfde geïntegreerde raamwerk. Sterke generaliseerbaarheid wordt bereikt via grootschalige synthetische training, ondersteund door een groot taalmodel (LLM), een nieuwe transformer-gebaseerde architectuur en een contrastieve leerformulering. Uitgebreide evaluatie op meerdere publieke datasets met uitdagende scenario's en objecten toont aan dat onze geïntegreerde aanpak bestaande methoden die gespecialiseerd zijn voor elke taak met een grote marge overtreft. Bovendien bereikt het zelfs vergelijkbare resultaten met instance-level methoden ondanks de verminderde aannames. Projectpagina: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose
estimation and tracking, supporting both model-based and model-free setups. Our
approach can be instantly applied at test-time to a novel object without
fine-tuning, as long as its CAD model is given, or a small number of reference
images are captured. We bridge the gap between these two setups with a neural
implicit representation that allows for effective novel view synthesis, keeping
the downstream pose estimation modules invariant under the same unified
framework. Strong generalizability is achieved via large-scale synthetic
training, aided by a large language model (LLM), a novel transformer-based
architecture, and contrastive learning formulation. Extensive evaluation on
multiple public datasets involving challenging scenarios and objects indicate
our unified approach outperforms existing methods specialized for each task by
a large margin. In addition, it even achieves comparable results to
instance-level methods despite the reduced assumptions. Project page:
https://nvlabs.github.io/FoundationPose/