ChatPaper.aiChatPaper

HANDAL : Un ensemble de données de catégories d'objets manipulables du monde réel avec annotations de pose, affordances et reconstructions

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Auteurs: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Résumé

Nous présentons le jeu de données HANDAL pour l'estimation de pose au niveau catégoriel et la prédiction d'affordances. Contrairement aux jeux de données précédents, le nôtre se concentre sur des objets manipulables adaptés à la robotique, de taille et de forme appropriées pour une préhension fonctionnelle par des manipulateurs robotiques, tels que des pinces, des ustensiles et des tournevis. Notre processus d'annotation est rationalisé, nécessitant uniquement une caméra grand public et un traitement semi-automatisé, ce qui nous permet de produire des annotations 3D de haute qualité sans recourir à l'annotation collaborative. Le jeu de données comprend 308 000 images annotées provenant de 2 200 vidéos de 212 objets réels répartis en 17 catégories. Nous nous concentrons sur les objets de quincaillerie et de cuisine pour faciliter la recherche dans des scénarios pratiques où un manipulateur robotique doit interagir avec l'environnement au-delà d'une simple poussée ou d'une préhension non discriminée. Nous décrivons l'utilité de notre jeu de données pour l'estimation de pose+échelle à 6 degrés de liberté au niveau catégoriel et pour des tâches connexes. Nous fournissons également des maillages 3D reconstruits de tous les objets, et nous identifions certains des goulots d'étranglement à résoudre pour démocratiser la collecte de jeux de données de ce type.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024