BOP Challenge 2024 zur modellbasierten und modellfreien 6D-Objekterkennung
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
April 3, 2025
Autoren: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI
Zusammenfassung
Wir präsentieren die Evaluierungsmethodik, Datensätze und Ergebnisse der BOP Challenge 2024, der sechsten in einer Reihe öffentlicher Wettbewerbe, die organisiert wurden, um den Stand der Technik in der 6D-Objekterkennung und verwandten Aufgaben zu erfassen. Im Jahr 2024 war unser Ziel, BOP von Labor-ähnlichen Aufbauten zu realen Szenarien zu überführen. Zunächst führten wir neue modellfreie Aufgaben ein, bei denen keine 3D-Objektmodelle verfügbar sind und Methoden Objekte allein aus bereitgestellten Referenzvideos integrieren müssen. Zweitens definierten wir eine neue, praktischere 6D-Objekterkennungsaufgabe, bei der die Identitäten der in einem Testbild sichtbaren Objekte nicht als Eingabe bereitgestellt werden. Drittens stellten wir neue BOP-H3-Datensätze vor, die mit hochauflösenden Sensoren und AR/VR-Headsets aufgenommen wurden und reale Szenarien eng nachahmen. BOP-H3 umfasst 3D-Modelle und Onboarding-Videos, um sowohl modellbasierte als auch modellfreie Aufgaben zu unterstützen. Die Teilnehmer traten in sieben Challenge-Tracks an, die jeweils durch eine Aufgabe, ein Objekt-Onboarding-Setup und eine Datensatzgruppe definiert waren. Bemerkenswert ist, dass die beste Methode von 2024 für die modellbasierte 6D-Lokalisierung von unbekannten Objekten (FreeZeV2.1) eine um 22 % höhere Genauigkeit auf BOP-Classic-Core erreicht als die beste Methode von 2023 (GenFlow) und nur 4 % hinter der besten Methode von 2023 für bekannte Objekte (GPose2023) liegt, obwohl sie deutlich langsamer ist (24,9 vs. 2,7 s pro Bild). Eine praktischere Methode von 2024 für diese Aufgabe ist Co-op, die nur 0,8 s pro Bild benötigt und 25-mal schneller sowie 13 % genauer als GenFlow ist. Methoden haben eine ähnliche Rangfolge bei der 6D-Erkennung wie bei der 6D-Lokalisierung, jedoch eine höhere Laufzeit. Bei der modellbasierten 2D-Erkennung von unbekannten Objekten erreicht die beste Methode von 2024 (MUSE) eine relative Verbesserung von 21 % im Vergleich zur besten Methode von 2023 (CNOS). Die 2D-Erkennungsgenauigkeit für unbekannte Objekte liegt jedoch immer noch deutlich (-53 %) hinter der Genauigkeit für bekannte Objekte (GDet2023). Das Online-Evaluierungssystem bleibt offen und ist unter http://bop.felk.cvut.cz/ verfügbar.
English
We present the evaluation methodology, datasets and results of the BOP
Challenge 2024, the sixth in a series of public competitions organized to
capture the state of the art in 6D object pose estimation and related tasks. In
2024, our goal was to transition BOP from lab-like setups to real-world
scenarios. First, we introduced new model-free tasks, where no 3D object models
are available and methods need to onboard objects just from provided reference
videos. Second, we defined a new, more practical 6D object detection task where
identities of objects visible in a test image are not provided as input. Third,
we introduced new BOP-H3 datasets recorded with high-resolution sensors and
AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D
models and onboarding videos to support both model-based and model-free tasks.
Participants competed on seven challenge tracks, each defined by a task, object
onboarding setup, and dataset group. Notably, the best 2024 method for
model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher
accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only
4% behind the best 2023 method for seen objects (GPose2023) although being
significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for
this task is Co-op which takes only 0.8s per image and is 25X faster and 13%
more accurate than GenFlow. Methods have a similar ranking on 6D detection as
on 6D localization but higher run time. On model-based 2D detection of unseen
objects, the best 2024 method (MUSE) achieves 21% relative improvement compared
to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen
objects is still noticealy (-53%) behind the accuracy for seen objects
(GDet2023). The online evaluation system stays open and is available at
http://bop.felk.cvut.cz/Summary
AI-Generated Summary