ChatPaper.aiChatPaper

HANDAL: Набор данных реальных категорий манипулируемых объектов с аннотациями поз, аффордансов и реконструкций

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Авторы: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Аннотация

Мы представляем набор данных HANDAL для оценки позы объектов на уровне категорий и предсказания их функциональных возможностей. В отличие от предыдущих наборов данных, наш сосредоточен на объектах, готовых для манипуляции роботами, которые имеют подходящие размеры и форму для функционального захвата манипуляторами, такие как плоскогубцы, столовые приборы и отвертки. Наш процесс аннотирования оптимизирован и требует только одну стандартную камеру и полуавтоматическую обработку, что позволяет нам создавать высококачественные 3D-аннотации без привлечения краудсорсинга. Набор данных состоит из 308 тысяч аннотированных кадров изображений из 2,2 тысяч видеороликов 212 реальных объектов, относящихся к 17 категориям. Мы сосредоточились на инструментах и кухонных принадлежностях, чтобы способствовать исследованиям в практических сценариях, где манипулятор робота должен взаимодействовать с окружающей средой, выходя за рамки простого толкания или неразборчивого захвата. Мы описываем полезность нашего набора данных для оценки позы и масштаба с шестью степенями свободы на уровне категорий и связанных задач. Также мы предоставляем 3D-реконструированные модели всех объектов и обозначаем некоторые узкие места, которые необходимо устранить для упрощения сбора подобных наборов данных.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024