HANDAL: Набор данных реальных категорий манипулируемых объектов с аннотациями поз, аффордансов и реконструкций
HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions
August 2, 2023
Авторы: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI
Аннотация
Мы представляем набор данных HANDAL для оценки позы объектов на уровне категорий и предсказания их функциональных возможностей. В отличие от предыдущих наборов данных, наш сосредоточен на объектах, готовых для манипуляции роботами, которые имеют подходящие размеры и форму для функционального захвата манипуляторами, такие как плоскогубцы, столовые приборы и отвертки. Наш процесс аннотирования оптимизирован и требует только одну стандартную камеру и полуавтоматическую обработку, что позволяет нам создавать высококачественные 3D-аннотации без привлечения краудсорсинга. Набор данных состоит из 308 тысяч аннотированных кадров изображений из 2,2 тысяч видеороликов 212 реальных объектов, относящихся к 17 категориям. Мы сосредоточились на инструментах и кухонных принадлежностях, чтобы способствовать исследованиям в практических сценариях, где манипулятор робота должен взаимодействовать с окружающей средой, выходя за рамки простого толкания или неразборчивого захвата. Мы описываем полезность нашего набора данных для оценки позы и масштаба с шестью степенями свободы на уровне категорий и связанных задач. Также мы предоставляем 3D-реконструированные модели всех объектов и обозначаем некоторые узкие места, которые необходимо устранить для упрощения сбора подобных наборов данных.
English
We present the HANDAL dataset for category-level object pose estimation and
affordance prediction. Unlike previous datasets, ours is focused on
robotics-ready manipulable objects that are of the proper size and shape for
functional grasping by robot manipulators, such as pliers, utensils, and
screwdrivers. Our annotation process is streamlined, requiring only a single
off-the-shelf camera and semi-automated processing, allowing us to produce
high-quality 3D annotations without crowd-sourcing. The dataset consists of
308k annotated image frames from 2.2k videos of 212 real-world objects in 17
categories. We focus on hardware and kitchen tool objects to facilitate
research in practical scenarios in which a robot manipulator needs to interact
with the environment beyond simple pushing or indiscriminate grasping. We
outline the usefulness of our dataset for 6-DoF category-level pose+scale
estimation and related tasks. We also provide 3D reconstructed meshes of all
objects, and we outline some of the bottlenecks to be addressed for
democratizing the collection of datasets like this one.