HANDAL: Un Conjunto de Datos de Categorías de Objetos Manipulables del Mundo Real con Anotaciones de Pose, Afordancias y Reconstrucciones
HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions
August 2, 2023
Autores: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI
Resumen
Presentamos el conjunto de datos HANDAL para la estimación de la pose a nivel de categoría y la predicción de affordances en objetos. A diferencia de conjuntos de datos anteriores, el nuestro se centra en objetos manipulables listos para robótica que tienen el tamaño y la forma adecuados para un agarre funcional por parte de manipuladores robóticos, como alicates, utensilios y destornilladores. Nuestro proceso de anotación está optimizado, requiriendo solo una cámara estándar y un procesamiento semiautomatizado, lo que nos permite producir anotaciones 3D de alta calidad sin recurrir a la colaboración masiva. El conjunto de datos consta de 308k fotogramas anotados procedentes de 2.2k videos de 212 objetos del mundo real en 17 categorías. Nos enfocamos en objetos de hardware y herramientas de cocina para facilitar la investigación en escenarios prácticos en los que un manipulador robótico necesita interactuar con el entorno más allá de simples empujes o agarres indiscriminados. Destacamos la utilidad de nuestro conjunto de datos para la estimación de pose+escala a 6 grados de libertad (6-DoF) a nivel de categoría y tareas relacionadas. También proporcionamos mallas 3D reconstruidas de todos los objetos y señalamos algunos de los cuellos de botella que deben abordarse para democratizar la recopilación de conjuntos de datos como este.
English
We present the HANDAL dataset for category-level object pose estimation and
affordance prediction. Unlike previous datasets, ours is focused on
robotics-ready manipulable objects that are of the proper size and shape for
functional grasping by robot manipulators, such as pliers, utensils, and
screwdrivers. Our annotation process is streamlined, requiring only a single
off-the-shelf camera and semi-automated processing, allowing us to produce
high-quality 3D annotations without crowd-sourcing. The dataset consists of
308k annotated image frames from 2.2k videos of 212 real-world objects in 17
categories. We focus on hardware and kitchen tool objects to facilitate
research in practical scenarios in which a robot manipulator needs to interact
with the environment beyond simple pushing or indiscriminate grasping. We
outline the usefulness of our dataset for 6-DoF category-level pose+scale
estimation and related tasks. We also provide 3D reconstructed meshes of all
objects, and we outline some of the bottlenecks to be addressed for
democratizing the collection of datasets like this one.