FoundationPose: Vereinheitlichte 6D-Posenschätzung und -Verfolgung von neuartigen Objekten
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
December 13, 2023
Autoren: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI
Zusammenfassung
Wir präsentieren FoundationPose, ein einheitliches Foundation-Modell für die 6D-Objektschätzung und -verfolgung, das sowohl modellbasierte als auch modellfreie Ansätze unterstützt. Unser Ansatz kann zur Testzeit sofort auf ein neues Objekt angewendet werden, ohne dass eine Feinabstimmung erforderlich ist, solange das CAD-Modell des Objekts vorliegt oder eine kleine Anzahl von Referenzbildern aufgenommen wurde. Wir überbrücken die Lücke zwischen diesen beiden Ansätzen mit einer neuronalen impliziten Repräsentation, die eine effektive Synthese neuer Ansichten ermöglicht und dabei die nachgelagerten Module zur Pose-Schätzung innerhalb desselben einheitlichen Frameworks invariant hält. Eine starke Generalisierbarkeit wird durch groß angelegtes synthetisches Training erreicht, unterstützt durch ein großes Sprachmodell (LLM), eine neuartige Transformer-basierte Architektur und ein kontrastives Lernverfahren. Umfangreiche Auswertungen auf mehreren öffentlichen Datensätzen, die herausfordernde Szenarien und Objekte umfassen, zeigen, dass unser einheitlicher Ansatz bestehende Methoden, die für jede Aufgabe spezialisiert sind, deutlich übertrifft. Darüber hinaus erzielt er sogar vergleichbare Ergebnisse zu instanzspezifischen Methoden, trotz der reduzierten Annahmen. Projektseite: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose
estimation and tracking, supporting both model-based and model-free setups. Our
approach can be instantly applied at test-time to a novel object without
fine-tuning, as long as its CAD model is given, or a small number of reference
images are captured. We bridge the gap between these two setups with a neural
implicit representation that allows for effective novel view synthesis, keeping
the downstream pose estimation modules invariant under the same unified
framework. Strong generalizability is achieved via large-scale synthetic
training, aided by a large language model (LLM), a novel transformer-based
architecture, and contrastive learning formulation. Extensive evaluation on
multiple public datasets involving challenging scenarios and objects indicate
our unified approach outperforms existing methods specialized for each task by
a large margin. In addition, it even achieves comparable results to
instance-level methods despite the reduced assumptions. Project page:
https://nvlabs.github.io/FoundationPose/