Nieuwe 6D-pose-schatting van objecten met een enkel referentiebeeld

Samenvatting

Bestaande methoden voor 6D-pose-schatting van nieuwe objecten zijn doorgaans afhankelijk van CAD-modellen of dichte referentiebeelden, die beide moeilijk te verkrijgen zijn. Het gebruik van slechts één enkel referentiebeeld is schaalbaarder, maar uitdagend vanwege grote poseverschillen en beperkte geometrische en ruimtelijke informatie. Om deze problemen aan te pakken, stellen we een Single-Reference-based novel object 6D (SinRef-6D) pose-schattingsmethode voor. Onze kernidee is om iteratief puntgewijze uitlijning in het cameracoördinatensysteem te realiseren op basis van state space models (SSMs). Specifiek kan iteratieve puntgewijze uitlijning in de cameraruimte grote poseverschillen effectief aanpakken, terwijl onze voorgestelde RGB- en Points-SSM's langeafstandsafhankelijkheden en ruimtelijke informatie uit één enkel beeld kunnen vastleggen, wat lineaire complexiteit en superieure ruimtelijke modelleringscapaciteit biedt. Eenmaal voorgetraind op synthetische data, kan SinRef-6D de 6D-pose van een nieuw object schatten met slechts één enkel referentiebeeld, zonder hertraining of een CAD-model nodig te hebben. Uitgebreide experimenten op zes populaire datasets en real-world robotsituaties tonen aan dat we vergelijkbare prestaties behalen met CAD-gebaseerde en dichte referentiebeeld-gebaseerde methoden, ondanks dat we werken in de uitdagendere single reference setting. Code zal worden vrijgegeven op https://github.com/CNJianLiu/SinRef-6D.

English

Existing novel object 6D pose estimation methods typically rely on CAD models or dense reference views, which are both difficult to acquire. Using only a single reference view is more scalable, but challenging due to large pose discrepancies and limited geometric and spatial information. To address these issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose estimation method. Our key idea is to iteratively establish point-wise alignment in the camera coordinate system based on state space models (SSMs). Specifically, iterative camera-space point-wise alignment can effectively handle large pose discrepancies, while our proposed RGB and Points SSMs can capture long-range dependencies and spatial information from a single view, offering linear complexity and superior spatial modeling capability. Once pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel object using only a single reference view, without requiring retraining or a CAD model. Extensive experiments on six popular datasets and real-world robotic scenes demonstrate that we achieve on-par performance with CAD-based and dense reference view-based methods, despite operating in the more challenging single reference setting. Code will be released at https://github.com/CNJianLiu/SinRef-6D.

Nieuwe 6D-pose-schatting van objecten met een enkel referentiebeeld

Novel Object 6D Pose Estimation with a Single Reference View

Samenvatting

Support