Estimation de la pose 6D d'objets nouveaux à partir d'une seule vue de référence

papers.abstract

Les méthodes existantes d'estimation de pose 6D pour des objets nouveaux reposent généralement sur des modèles CAO ou des vues de référence denses, qui sont tous deux difficiles à acquérir. L'utilisation d'une seule vue de référence est plus évolutive, mais présente des défis en raison des écarts de pose importants et des informations géométriques et spatiales limitées. Pour résoudre ces problèmes, nous proposons une méthode d'estimation de pose 6D basée sur une seule référence (SinRef-6D). Notre idée clé est d'établir itérativement un alignement point par point dans le système de coordonnées de la caméra en s'appuyant sur des modèles d'espace d'état (SSM). Plus précisément, l'alignement itératif point par point dans l'espace de la caméra permet de gérer efficacement les écarts de pose importants, tandis que nos SSM RGB et Points proposés capturent les dépendances à longue portée et les informations spatiales à partir d'une seule vue, offrant une complexité linéaire et une capacité de modélisation spatiale supérieure. Une fois pré-entraîné sur des données synthétiques, SinRef-6D peut estimer la pose 6D d'un objet nouveau en utilisant une seule vue de référence, sans nécessiter de réentraînement ou de modèle CAO. Des expériences approfondies sur six ensembles de données populaires et des scènes robotiques réelles démontrent que nous obtenons des performances comparables aux méthodes basées sur CAO et sur des vues de référence denses, malgré un fonctionnement dans le cadre plus difficile d'une seule référence. Le code sera disponible à l'adresse https://github.com/CNJianLiu/SinRef-6D.

English

Existing novel object 6D pose estimation methods typically rely on CAD models or dense reference views, which are both difficult to acquire. Using only a single reference view is more scalable, but challenging due to large pose discrepancies and limited geometric and spatial information. To address these issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose estimation method. Our key idea is to iteratively establish point-wise alignment in the camera coordinate system based on state space models (SSMs). Specifically, iterative camera-space point-wise alignment can effectively handle large pose discrepancies, while our proposed RGB and Points SSMs can capture long-range dependencies and spatial information from a single view, offering linear complexity and superior spatial modeling capability. Once pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel object using only a single reference view, without requiring retraining or a CAD model. Extensive experiments on six popular datasets and real-world robotic scenes demonstrate that we achieve on-par performance with CAD-based and dense reference view-based methods, despite operating in the more challenging single reference setting. Code will be released at https://github.com/CNJianLiu/SinRef-6D.

Estimation de la pose 6D d'objets nouveaux à partir d'une seule vue de référence

Novel Object 6D Pose Estimation with a Single Reference View

papers.abstract

Support