BOP Challenge 2024 по оценке 6D позы объектов на основе моделей и без использования моделей
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
April 3, 2025
Авторы: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI
Аннотация
Мы представляем методологию оценки, наборы данных и результаты конкурса BOP Challenge 2024, шестого в серии публичных соревнований, организованных для определения современного уровня в области оценки 6D-позиции объектов и связанных задач. В 2024 году нашей целью был переход BOP от лабораторных условий к реальным сценариям. Во-первых, мы ввели новые задачи, не требующие моделей объектов, где 3D-модели недоступны, и методы должны обучаться на объектах только на основе предоставленных эталонных видео. Во-вторых, мы определили новую, более практичную задачу 6D-детектирования объектов, где идентификаторы объектов, видимых на тестовом изображении, не предоставляются на вход. В-третьих, мы представили новые наборы данных BOP-H3, записанные с использованием высококачественных сенсоров и AR/VR-гарнитур, максимально приближенные к реальным условиям. BOP-H3 включают 3D-модели и обучающие видео для поддержки как задач с использованием моделей, так и без них. Участники соревновались на семи треках, каждый из которых определялся задачей, способом обучения на объектах и группой наборов данных. Примечательно, что лучший метод 2024 года для 6D-локализации невидимых объектов с использованием моделей (FreeZeV2.1) достигает на 22% большей точности на BOP-Classic-Core, чем лучший метод 2023 года (GenFlow), и отстает всего на 4% от лучшего метода 2023 года для видимых объектов (GPose2023), хотя и работает значительно медленнее (24,9 против 2,7 секунд на изображение). Более практичный метод 2024 года для этой задачи — Co-op, который занимает всего 0,8 секунды на изображение, работает в 25 раз быстрее и на 13% точнее, чем GenFlow. Методы имеют схожий рейтинг в 6D-детектировании, как и в 6D-локализации, но с более высоким временем выполнения. В 2D-детектировании невидимых объектов с использованием моделей лучший метод 2024 года (MUSE) демонстрирует относительное улучшение на 21% по сравнению с лучшим методом 2023 года (CNOS). Однако точность 2D-детектирования для невидимых объектов все еще заметно (-53%) отстает от точности для видимых объектов (GDet2023). Онлайн-система оценки остается открытой и доступна по адресу http://bop.felk.cvut.cz/.
English
We present the evaluation methodology, datasets and results of the BOP
Challenge 2024, the sixth in a series of public competitions organized to
capture the state of the art in 6D object pose estimation and related tasks. In
2024, our goal was to transition BOP from lab-like setups to real-world
scenarios. First, we introduced new model-free tasks, where no 3D object models
are available and methods need to onboard objects just from provided reference
videos. Second, we defined a new, more practical 6D object detection task where
identities of objects visible in a test image are not provided as input. Third,
we introduced new BOP-H3 datasets recorded with high-resolution sensors and
AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D
models and onboarding videos to support both model-based and model-free tasks.
Participants competed on seven challenge tracks, each defined by a task, object
onboarding setup, and dataset group. Notably, the best 2024 method for
model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher
accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only
4% behind the best 2023 method for seen objects (GPose2023) although being
significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for
this task is Co-op which takes only 0.8s per image and is 25X faster and 13%
more accurate than GenFlow. Methods have a similar ranking on 6D detection as
on 6D localization but higher run time. On model-based 2D detection of unseen
objects, the best 2024 method (MUSE) achieves 21% relative improvement compared
to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen
objects is still noticealy (-53%) behind the accuracy for seen objects
(GDet2023). The online evaluation system stays open and is available at
http://bop.felk.cvut.cz/Summary
AI-Generated Summary