Estimation de la pose 6D d'objets nouveaux à partir d'une seule vue de référence
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Auteurs: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Résumé
Les méthodes existantes d'estimation de pose 6D pour des objets nouveaux reposent généralement sur des modèles CAO ou des vues de référence denses, qui sont tous deux difficiles à acquérir. L'utilisation d'une seule vue de référence est plus évolutive, mais présente des défis en raison des écarts de pose importants et des informations géométriques et spatiales limitées. Pour résoudre ces problèmes, nous proposons une méthode d'estimation de pose 6D basée sur une seule référence (SinRef-6D). Notre idée clé est d'établir itérativement un alignement point par point dans le système de coordonnées de la caméra en s'appuyant sur des modèles d'espace d'état (SSM). Plus précisément, l'alignement itératif point par point dans l'espace de la caméra permet de gérer efficacement les écarts de pose importants, tandis que nos SSM RGB et Points proposés capturent les dépendances à longue portée et les informations spatiales à partir d'une seule vue, offrant une complexité linéaire et une capacité de modélisation spatiale supérieure. Une fois pré-entraîné sur des données synthétiques, SinRef-6D peut estimer la pose 6D d'un objet nouveau en utilisant une seule vue de référence, sans nécessiter de réentraînement ou de modèle CAO. Des expériences approfondies sur six ensembles de données populaires et des scènes robotiques réelles démontrent que nous obtenons des performances comparables aux méthodes basées sur CAO et sur des vues de référence denses, malgré un fonctionnement dans le cadre plus difficile d'une seule référence. Le code sera disponible à l'adresse https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary