ChatPaper.aiChatPaper

Desafío BOP 2024 sobre Estimación de Pose 6D Basada en Modelos y Libre de Modelos

BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

April 3, 2025
Autores: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI

Resumen

Presentamos la metodología de evaluación, los conjuntos de datos y los resultados del BOP Challenge 2024, la sexta edición de una serie de competencias públicas organizadas para capturar el estado del arte en la estimación de la pose 6D de objetos y tareas relacionadas. En 2024, nuestro objetivo fue trasladar BOP desde configuraciones de laboratorio a escenarios del mundo real. Primero, introdujimos nuevas tareas sin modelos, donde no se dispone de modelos 3D de los objetos y los métodos deben incorporar objetos únicamente a partir de videos de referencia proporcionados. Segundo, definimos una nueva tarea de detección 6D de objetos más práctica, donde las identidades de los objetos visibles en una imagen de prueba no se proporcionan como entrada. Tercero, presentamos nuevos conjuntos de datos BOP-H3, grabados con sensores de alta resolución y cascos de realidad aumentada/virtual, que se asemejan estrechamente a escenarios del mundo real. BOP-H3 incluye modelos 3D y videos de incorporación para respaldar tanto tareas basadas en modelos como sin modelos. Los participantes compitieron en siete categorías del desafío, cada una definida por una tarea, una configuración de incorporación de objetos y un grupo de conjuntos de datos. Cabe destacar que el mejor método de 2024 para la localización 6D basada en modelos de objetos no vistos (FreeZeV2.1) logra un 22% más de precisión en BOP-Classic-Core que el mejor método de 2023 (GenFlow), y está solo un 4% por detrás del mejor método de 2023 para objetos vistos (GPose2023), aunque es significativamente más lento (24.9 vs 2.7s por imagen). Un método más práctico de 2024 para esta tarea es Co-op, que toma solo 0.8s por imagen y es 25 veces más rápido y un 13% más preciso que GenFlow. Los métodos tienen un ranking similar en detección 6D que en localización 6D, pero con un mayor tiempo de ejecución. En la detección 2D basada en modelos de objetos no vistos, el mejor método de 2024 (MUSE) logra una mejora relativa del 21% en comparación con el mejor método de 2023 (CNOS). Sin embargo, la precisión en la detección 2D de objetos no vistos sigue estando notablemente (-53%) por detrás de la precisión para objetos vistos (GDet2023). El sistema de evaluación en línea permanece abierto y está disponible en http://bop.felk.cvut.cz/.
English
We present the evaluation methodology, datasets and results of the BOP Challenge 2024, the sixth in a series of public competitions organized to capture the state of the art in 6D object pose estimation and related tasks. In 2024, our goal was to transition BOP from lab-like setups to real-world scenarios. First, we introduced new model-free tasks, where no 3D object models are available and methods need to onboard objects just from provided reference videos. Second, we defined a new, more practical 6D object detection task where identities of objects visible in a test image are not provided as input. Third, we introduced new BOP-H3 datasets recorded with high-resolution sensors and AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D models and onboarding videos to support both model-based and model-free tasks. Participants competed on seven challenge tracks, each defined by a task, object onboarding setup, and dataset group. Notably, the best 2024 method for model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only 4% behind the best 2023 method for seen objects (GPose2023) although being significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for this task is Co-op which takes only 0.8s per image and is 25X faster and 13% more accurate than GenFlow. Methods have a similar ranking on 6D detection as on 6D localization but higher run time. On model-based 2D detection of unseen objects, the best 2024 method (MUSE) achieves 21% relative improvement compared to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen objects is still noticealy (-53%) behind the accuracy for seen objects (GDet2023). The online evaluation system stays open and is available at http://bop.felk.cvut.cz/

Summary

AI-Generated Summary

PDF52April 8, 2025