ChatPaper.aiChatPaper

HANDAL: Een dataset van real-world manipuleerbare objectcategorieën met poseannotaties, affordances en reconstructies

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Auteurs: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Samenvatting

We presenteren het HANDAL-dataset voor categoriegewijze objectpose-schatting en affordantievoorspelling. In tegenstelling tot eerdere datasets, richt de onze zich op robotklaar manipuleerbare objecten die de juiste grootte en vorm hebben voor functioneel grijpen door robotmanipulatoren, zoals tangen, bestek en schroevendraaiers. Ons annotatieproces is gestroomlijnd en vereist slechts een enkele kant-en-klare camera en semi-geautomatiseerde verwerking, waardoor we hoogwaardige 3D-annotaties kunnen produceren zonder gebruik te maken van crowdsourcing. De dataset bestaat uit 308k geannoteerde beeldframes uit 2.2k video's van 212 objecten uit de echte wereld in 17 categorieën. We richten ons op hardware- en keukengereedschapsobjecten om onderzoek te faciliteren in praktische scenario's waarin een robotmanipulator moet interageren met de omgeving, verder dan eenvoudig duwen of ongericht grijpen. We schetsen het nut van onze dataset voor 6-DoF categoriegewijze pose+schaal-schatting en gerelateerde taken. We bieden ook 3D-gereconstrueerde meshes van alle objecten, en we schetsen enkele knelpunten die moeten worden aangepakt om de verzameling van datasets zoals deze te democratiseren.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024