ChatPaper.aiChatPaper

Оценка 6D позы нового объекта по одному эталонному изображению

Novel Object 6D Pose Estimation with a Single Reference View

March 7, 2025
Авторы: Jian Liu, Wei Sun, Kai Zeng, Jin Zheng, Hui Yang, Lin Wang, Hossein Rahmani, Ajmal Mian
cs.AI

Аннотация

Существующие методы оценки 6D-позиции новых объектов обычно полагаются на CAD-модели или плотные эталонные изображения, которые сложно получить. Использование всего одного эталонного изображения более масштабируемо, но представляет сложность из-за значительных расхождений в позах и ограниченной геометрической и пространственной информации. Для решения этих проблем мы предлагаем метод оценки 6D-позиции новых объектов на основе одного эталонного изображения (SinRef-6D). Наша ключевая идея заключается в итеративном установлении поточечного выравнивания в системе координат камеры на основе моделей пространства состояний (SSM). В частности, итеративное поточечное выравнивание в пространстве камеры эффективно справляется с большими расхождениями в позах, а предложенные нами SSM для RGB и точек позволяют захватывать долгосрочные зависимости и пространственную информацию из одного изображения, обеспечивая линейную сложность и превосходные возможности пространственного моделирования. После предварительного обучения на синтетических данных SinRef-6D может оценивать 6D-позицию нового объекта, используя только одно эталонное изображение, без необходимости повторного обучения или CAD-модели. Многочисленные эксперименты на шести популярных наборах данных и в реальных роботизированных сценах демонстрируют, что мы достигаем сопоставимой производительности с методами, основанными на CAD и плотных эталонных изображениях, несмотря на работу в более сложных условиях с одним эталонным изображением. Код будет доступен по адресу https://github.com/CNJianLiu/SinRef-6D.
English
Existing novel object 6D pose estimation methods typically rely on CAD models or dense reference views, which are both difficult to acquire. Using only a single reference view is more scalable, but challenging due to large pose discrepancies and limited geometric and spatial information. To address these issues, we propose a Single-Reference-based novel object 6D (SinRef-6D) pose estimation method. Our key idea is to iteratively establish point-wise alignment in the camera coordinate system based on state space models (SSMs). Specifically, iterative camera-space point-wise alignment can effectively handle large pose discrepancies, while our proposed RGB and Points SSMs can capture long-range dependencies and spatial information from a single view, offering linear complexity and superior spatial modeling capability. Once pre-trained on synthetic data, SinRef-6D can estimate the 6D pose of a novel object using only a single reference view, without requiring retraining or a CAD model. Extensive experiments on six popular datasets and real-world robotic scenes demonstrate that we achieve on-par performance with CAD-based and dense reference view-based methods, despite operating in the more challenging single reference setting. Code will be released at https://github.com/CNJianLiu/SinRef-6D.

Summary

AI-Generated Summary

PDF32March 11, 2025