Оценка 6D позы нового объекта по одному эталонному изображению
Novel Object 6D Pose Estimation with a Single Reference View
March 7, 2025
Авторы: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI
Аннотация
Существующие методы оценки 6D-позиции новых объектов обычно полагаются на CAD-модели или плотные эталонные изображения, которые сложно получить. Использование всего одного эталонного изображения более масштабируемо, но представляет сложность из-за значительных расхождений в позах и ограниченной геометрической и пространственной информации. Для решения этих проблем мы предлагаем метод оценки 6D-позиции новых объектов на основе одного эталонного изображения (SinRef-6D). Наша ключевая идея заключается в итеративном установлении поточечного выравнивания в системе координат камеры на основе моделей пространства состояний (SSM). В частности, итеративное поточечное выравнивание в пространстве камеры эффективно справляется с большими расхождениями в позах, а предложенные нами SSM для RGB и точек позволяют захватывать долгосрочные зависимости и пространственную информацию из одного изображения, обеспечивая линейную сложность и превосходные возможности пространственного моделирования. После предварительного обучения на синтетических данных SinRef-6D может оценивать 6D-позицию нового объекта, используя только одно эталонное изображение, без необходимости повторного обучения или CAD-модели. Многочисленные эксперименты на шести популярных наборах данных и в реальных роботизированных сценах демонстрируют, что мы достигаем сопоставимой производительности с методами, основанными на CAD и плотных эталонных изображениях, несмотря на работу в более сложных условиях с одним эталонным изображением. Код будет доступен по адресу https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models
or dense reference views, which are both difficult to acquire. Using only a
single reference view is more scalable, but challenging due to large pose
discrepancies and limited geometric and spatial information. To address these
issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose
estimation method. Our key idea is to iteratively establish point-wise
alignment in the camera coordinate system based on state space models (SSMs).
Specifically, iterative camera-space point-wise alignment can effectively
handle large pose discrepancies, while our proposed RGB and Points SSMs can
capture long-range dependencies and spatial information from a single view,
offering linear complexity and superior spatial modeling capability. Once
pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel
object using only a single reference view, without requiring retraining or a
CAD model. Extensive experiments on six popular datasets and real-world robotic
scenes demonstrate that we achieve on-par performance with CAD-based and dense
reference view-based methods, despite operating in the more challenging single
reference setting. Code will be released at
https://github.com/CNJianLiu/SinRef-6D.Summary
AI-Generated Summary