Estimativa de Pose 6D de Objetos Novos com uma Única Visão de Referência
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Autores: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Resumo
Os métodos existentes de estimativa de pose 6D de objetos novos geralmente dependem de modelos CAD ou de visões de referência densas, que são ambos difíceis de adquirir. Utilizar apenas uma única visão de referência é mais escalável, mas desafiador devido a grandes discrepâncias de pose e informações geométricas e espaciais limitadas. Para abordar esses problemas, propomos um método de estimativa de pose 6D de objetos novos baseado em uma única referência (SinRef-6D). Nossa ideia principal é estabelecer iterativamente o alinhamento ponto a ponto no sistema de coordenadas da câmera com base em modelos de espaço de estados (SSMs). Especificamente, o alinhamento iterativo ponto a ponto no espaço da câmera pode lidar efetivamente com grandes discrepâncias de pose, enquanto nossos SSMs propostos para RGB e Pontos podem capturar dependências de longo alcance e informações espaciais a partir de uma única visão, oferecendo complexidade linear e capacidade superior de modelagem espacial. Uma vez pré-treinado em dados sintéticos, o SinRef-6D pode estimar a pose 6D de um objeto novo usando apenas uma única visão de referência, sem a necessidade de retreinamento ou de um modelo CAD. Experimentos extensivos em seis conjuntos de dados populares e cenas robóticas do mundo real demonstram que alcançamos desempenho equivalente aos métodos baseados em CAD e em visões de referência densas, apesar de operar no cenário mais desafiador de uma única referência. O código será disponibilizado em https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary