Estimación de la Pose 6D de Objetos Novedosos con una Única Vista de Referencia
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Autores: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Resumen
Los métodos existentes para la estimación de la pose 6D de objetos novedosos suelen depender de modelos CAD o de vistas de referencia densas, ambos difíciles de adquirir. Utilizar solo una única vista de referencia es más escalable, pero presenta desafíos debido a grandes discrepancias en la pose y a la limitada información geométrica y espacial. Para abordar estos problemas, proponemos un método de estimación de la pose 6D de objetos novedosos basado en una única referencia (SinRef-6D). Nuestra idea clave es establecer de manera iterativa una alineación punto a punto en el sistema de coordenadas de la cámara basada en modelos de espacio de estados (SSMs, por sus siglas en inglés). Específicamente, la alineación iterativa punto a punto en el espacio de la cámara puede manejar eficazmente grandes discrepancias en la pose, mientras que nuestros SSMs propuestos para RGB y puntos pueden capturar dependencias de largo alcance e información espacial a partir de una única vista, ofreciendo complejidad lineal y una capacidad superior de modelado espacial. Una vez preentrenado en datos sintéticos, SinRef-6D puede estimar la pose 6D de un objeto novedoso utilizando solo una única vista de referencia, sin necesidad de reentrenamiento o un modelo CAD. Experimentos exhaustivos en seis conjuntos de datos populares y escenas robóticas del mundo real demuestran que logramos un rendimiento comparable con los métodos basados en CAD y en vistas de referencia densas, a pesar de operar en el entorno más desafiante de una única referencia. El código se publicará en https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary