FoundationPose: Унифицированное оценивание и отслеживание 6D позы новых объектов
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
December 13, 2023
Авторы: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI
Аннотация
Мы представляем FoundationPose — унифицированную базовую модель для оценки и отслеживания 6D позы объектов, поддерживающую как модели на основе CAD-моделей, так и модели без их использования. Наш подход может быть мгновенно применен на этапе тестирования к новому объекту без необходимости тонкой настройки, при условии, что предоставлена его CAD-модель или захвачено небольшое количество референсных изображений. Мы устраняем разрыв между этими двумя подходами с помощью нейронного неявного представления, которое позволяет эффективно синтезировать новые виды, сохраняя модули оценки позы неизменными в рамках единой структуры. Высокая обобщающая способность достигается за счет масштабного синтетического обучения, поддержанного использованием крупной языковой модели (LLM), новой архитектуры на основе трансформеров и контрастного обучения. Обширная оценка на нескольких публичных наборах данных, включающих сложные сценарии и объекты, показывает, что наш унифицированный подход значительно превосходит существующие методы, специализированные для каждой задачи. Кроме того, он достигает результатов, сопоставимых с методами на уровне экземпляров, несмотря на уменьшенные допущения. Страница проекта: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose
estimation and tracking, supporting both model-based and model-free setups. Our
approach can be instantly applied at test-time to a novel object without
fine-tuning, as long as its CAD model is given, or a small number of reference
images are captured. We bridge the gap between these two setups with a neural
implicit representation that allows for effective novel view synthesis, keeping
the downstream pose estimation modules invariant under the same unified
framework. Strong generalizability is achieved via large-scale synthetic
training, aided by a large language model (LLM), a novel transformer-based
architecture, and contrastive learning formulation. Extensive evaluation on
multiple public datasets involving challenging scenarios and objects indicate
our unified approach outperforms existing methods specialized for each task by
a large margin. In addition, it even achieves comparable results to
instance-level methods despite the reduced assumptions. Project page:
https://nvlabs.github.io/FoundationPose/