ChatPaper.aiChatPaper

FoundationPose: Унифицированное оценивание и отслеживание 6D позы новых объектов

FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects

December 13, 2023
Авторы: Bowen Wen, Wei Yang, Jan Kautz, Stan Birchfield
cs.AI

Аннотация

Мы представляем FoundationPose — унифицированную базовую модель для оценки и отслеживания 6D позы объектов, поддерживающую как модели на основе CAD-моделей, так и модели без их использования. Наш подход может быть мгновенно применен на этапе тестирования к новому объекту без необходимости тонкой настройки, при условии, что предоставлена его CAD-модель или захвачено небольшое количество референсных изображений. Мы устраняем разрыв между этими двумя подходами с помощью нейронного неявного представления, которое позволяет эффективно синтезировать новые виды, сохраняя модули оценки позы неизменными в рамках единой структуры. Высокая обобщающая способность достигается за счет масштабного синтетического обучения, поддержанного использованием крупной языковой модели (LLM), новой архитектуры на основе трансформеров и контрастного обучения. Обширная оценка на нескольких публичных наборах данных, включающих сложные сценарии и объекты, показывает, что наш унифицированный подход значительно превосходит существующие методы, специализированные для каждой задачи. Кроме того, он достигает результатов, сопоставимых с методами на уровне экземпляров, несмотря на уменьшенные допущения. Страница проекта: https://nvlabs.github.io/FoundationPose/
English
We present FoundationPose, a unified foundation model for 6D object pose estimation and tracking, supporting both model-based and model-free setups. Our approach can be instantly applied at test-time to a novel object without fine-tuning, as long as its CAD model is given, or a small number of reference images are captured. We bridge the gap between these two setups with a neural implicit representation that allows for effective novel view synthesis, keeping the downstream pose estimation modules invariant under the same unified framework. Strong generalizability is achieved via large-scale synthetic training, aided by a large language model (LLM), a novel transformer-based architecture, and contrastive learning formulation. Extensive evaluation on multiple public datasets involving challenging scenarios and objects indicate our unified approach outperforms existing methods specialized for each task by a large margin. In addition, it even achieves comparable results to instance-level methods despite the reduced assumptions. Project page: https://nvlabs.github.io/FoundationPose/
PDF131December 15, 2024