BOP Challenge 2024: 모델 기반 및 모델 프리 6D 객체 포즈 추정
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
April 3, 2025
저자: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI
초록
BOP 챌린지 2024의 평가 방법론, 데이터셋 및 결과를 소개합니다. 이는 6D 객체 포즈 추정 및 관련 작업의 최신 기술 수준을 파악하기 위해 조직된 일련의 공개 경쟁 중 여섯 번째입니다. 2024년에는 BOP를 실험실 환경에서 실제 시나리오로 전환하는 것을 목표로 했습니다. 첫째, 3D 객체 모델이 제공되지 않고 참조 비디오만으로 객체를 등록해야 하는 새로운 모델 프리 작업을 도입했습니다. 둘째, 테스트 이미지에서 보이는 객체의 식별 정보가 입력으로 제공되지 않는 더 실용적인 6D 객체 탐지 작업을 정의했습니다. 셋째, 고해상도 센서와 AR/VR 헤드셋으로 기록된 BOP-H3 데이터셋을 도입하여 실제 시나리오와 유사한 환경을 조성했습니다. BOP-H3는 모델 기반 및 모델 프리 작업을 모두 지원하기 위해 3D 모델과 등록 비디오를 포함합니다. 참가자들은 작업, 객체 등록 설정 및 데이터셋 그룹으로 정의된 7개의 챌린지 트랙에서 경쟁했습니다. 특히, 2024년에 미확인 객체에 대한 모델 기반 6D 위치 추정에서 최고의 방법(FreeZeV2.1)은 BOP-Classic-Core에서 2023년 최고의 방법(GenFlow)보다 22% 더 높은 정확도를 달성했으며, 확인된 객체에 대한 2023년 최고의 방법(GPose2023)보다 단지 4% 뒤처졌습니다. 그러나 처리 속도는 상당히 느렸습니다(이미지당 24.9초 대 2.7초). 이 작업에 대한 더 실용적인 2024년 방법은 Co-op으로, 이미지당 0.8초만 소요되며 GenFlow보다 25배 빠르고 13% 더 정확합니다. 6D 탐지에서의 방법 순위는 6D 위치 추정과 유사하지만 실행 시간이 더 깁니다. 미확인 객체에 대한 모델 기반 2D 탐지에서 2024년 최고의 방법(MUSE)은 2023년 최고의 방법(CNOS)에 비해 21%의 상대적 개선을 달성했습니다. 그러나 미확인 객체에 대한 2D 탐지 정확도는 여전히 확인된 객체(GDet2023)에 비해 눈에 띄게(-53%) 낮습니다. 온라인 평가 시스템은 계속 열려 있으며 http://bop.felk.cvut.cz/에서 이용 가능합니다.
English
We present the evaluation methodology, datasets and results of the BOP
Challenge 2024, the sixth in a series of public competitions organized to
capture the state of the art in 6D object pose estimation and related tasks. In
2024, our goal was to transition BOP from lab-like setups to real-world
scenarios. First, we introduced new model-free tasks, where no 3D object models
are available and methods need to onboard objects just from provided reference
videos. Second, we defined a new, more practical 6D object detection task where
identities of objects visible in a test image are not provided as input. Third,
we introduced new BOP-H3 datasets recorded with high-resolution sensors and
AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D
models and onboarding videos to support both model-based and model-free tasks.
Participants competed on seven challenge tracks, each defined by a task, object
onboarding setup, and dataset group. Notably, the best 2024 method for
model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher
accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only
4% behind the best 2023 method for seen objects (GPose2023) although being
significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for
this task is Co-op which takes only 0.8s per image and is 25X faster and 13%
more accurate than GenFlow. Methods have a similar ranking on 6D detection as
on 6D localization but higher run time. On model-based 2D detection of unseen
objects, the best 2024 method (MUSE) achieves 21% relative improvement compared
to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen
objects is still noticealy (-53%) behind the accuracy for seen objects
(GDet2023). The online evaluation system stays open and is available at
http://bop.felk.cvut.cz/Summary
AI-Generated Summary