Desafio BOP 2024 sobre Estimativa de Pose 6D de Objetos Baseada em Modelo e Livre de Modelo
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation
April 3, 2025
Autores: Van Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan
cs.AI
Resumo
Apresentamos a metodologia de avaliação, os conjuntos de dados e os resultados do BOP Challenge 2024, a sexta edição de uma série de competições públicas organizadas para capturar o estado da arte na estimativa de pose 6D de objetos e tarefas relacionadas. Em 2024, nosso objetivo foi transicionar o BOP de configurações laboratoriais para cenários do mundo real. Primeiro, introduzimos novas tarefas sem modelo, onde nenhum modelo 3D de objeto está disponível e os métodos precisam integrar objetos apenas a partir de vídeos de referência fornecidos. Segundo, definimos uma nova e mais prática tarefa de detecção de objetos 6D, onde as identidades dos objetos visíveis em uma imagem de teste não são fornecidas como entrada. Terceiro, introduzimos novos conjuntos de dados BOP-H3, gravados com sensores de alta resolução e headsets de AR/VR, que se assemelham de perto a cenários do mundo real. O BOP-H3 inclui modelos 3D e vídeos de integração para suportar tanto tarefas baseadas em modelo quanto sem modelo. Os participantes competiram em sete trilhas de desafio, cada uma definida por uma tarefa, configuração de integração de objetos e grupo de conjuntos de dados. Notavelmente, o melhor método de 2024 para localização 6D baseada em modelo de objetos não vistos (FreeZeV2.1) alcança 22% mais precisão no BOP-Classic-Core do que o melhor método de 2023 (GenFlow), e está apenas 4% atrás do melhor método de 2023 para objetos vistos (GPose2023), embora seja significativamente mais lento (24,9 vs 2,7s por imagem). Um método mais prático de 2024 para essa tarefa é o Co-op, que leva apenas 0,8s por imagem e é 25 vezes mais rápido e 13% mais preciso que o GenFlow. Os métodos têm uma classificação semelhante na detecção 6D e na localização 6D, mas com tempo de execução maior. Na detecção 2D baseada em modelo de objetos não vistos, o melhor método de 2024 (MUSE) alcança uma melhoria relativa de 21% em comparação com o melhor método de 2023 (CNOS). No entanto, a precisão da detecção 2D para objetos não vistos ainda está notavelmente (-53%) atrás da precisão para objetos vistos (GDet2023). O sistema de avaliação online permanece aberto e está disponível em http://bop.felk.cvut.cz/.
English
We present the evaluation methodology, datasets and results of the BOP
Challenge 2024, the sixth in a series of public competitions organized to
capture the state of the art in 6D object pose estimation and related tasks. In
2024, our goal was to transition BOP from lab-like setups to real-world
scenarios. First, we introduced new model-free tasks, where no 3D object models
are available and methods need to onboard objects just from provided reference
videos. Second, we defined a new, more practical 6D object detection task where
identities of objects visible in a test image are not provided as input. Third,
we introduced new BOP-H3 datasets recorded with high-resolution sensors and
AR/VR headsets, closely resembling real-world scenarios. BOP-H3 include 3D
models and onboarding videos to support both model-based and model-free tasks.
Participants competed on seven challenge tracks, each defined by a task, object
onboarding setup, and dataset group. Notably, the best 2024 method for
model-based 6D localization of unseen objects (FreeZeV2.1) achieves 22% higher
accuracy on BOP-Classic-Core than the best 2023 method (GenFlow), and is only
4% behind the best 2023 method for seen objects (GPose2023) although being
significantly slower (24.9 vs 2.7s per image). A more practical 2024 method for
this task is Co-op which takes only 0.8s per image and is 25X faster and 13%
more accurate than GenFlow. Methods have a similar ranking on 6D detection as
on 6D localization but higher run time. On model-based 2D detection of unseen
objects, the best 2024 method (MUSE) achieves 21% relative improvement compared
to the best 2023 method (CNOS). However, the 2D detection accuracy for unseen
objects is still noticealy (-53%) behind the accuracy for seen objects
(GDet2023). The online evaluation system stays open and is available at
http://bop.felk.cvut.cz/Summary
AI-Generated Summary