Nieuwe 6D-pose-schatting van objecten met een enkel referentiebeeld
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Auteurs: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Samenvatting
Bestaande methoden voor 6D-pose-schatting van nieuwe objecten zijn doorgaans afhankelijk van CAD-modellen of dichte referentiebeelden, die beide moeilijk te verkrijgen zijn. Het gebruik van slechts één enkel referentiebeeld is schaalbaarder, maar uitdagend vanwege grote poseverschillen en beperkte geometrische en ruimtelijke informatie. Om deze problemen aan te pakken, stellen we een Single-Reference-based novel object 6D (SinRef-6D) pose-schattingsmethode voor. Onze kernidee is om iteratief puntgewijze uitlijning in het cameracoördinatensysteem te realiseren op basis van state space models (SSMs). Specifiek kan iteratieve puntgewijze uitlijning in de cameraruimte grote poseverschillen effectief aanpakken, terwijl onze voorgestelde RGB- en Points-SSM's langeafstandsafhankelijkheden en ruimtelijke informatie uit één enkel beeld kunnen vastleggen, wat lineaire complexiteit en superieure ruimtelijke modelleringscapaciteit biedt. Eenmaal voorgetraind op synthetische data, kan SinRef-6D de 6D-pose van een nieuw object schatten met slechts één enkel referentiebeeld, zonder hertraining of een CAD-model nodig te hebben. Uitgebreide experimenten op zes populaire datasets en real-world robotsituaties tonen aan dat we vergelijkbare prestaties behalen met CAD-gebaseerde en dichte referentiebeeld-gebaseerde methoden, ondanks dat we werken in de uitdagendere single reference setting. Code zal worden vrijgegeven op https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary