ChatPaper.aiChatPaper

HANDAL: Ein Datensatz realer manipulierbarer Objektkategorien mit Pose-Annotationen, Affordanzen und Rekonstruktionen

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Autoren: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Zusammenfassung

Wir präsentieren den HANDAL-Datensatz für die kategoriebasierte Objektposenschätzung und Affordance-Vorhersage. Im Gegensatz zu früheren Datensätzen konzentriert sich unser Datensatz auf robotiktaugliche, manipulierbare Objekte, die in Größe und Form für das funktionale Greifen durch Roboterarme geeignet sind, wie beispielsweise Zangen, Küchenutensilien und Schraubendreher. Unser Annotationsprozess ist effizient gestaltet und erfordert lediglich eine handelsübliche Kamera sowie halbautomatisierte Verarbeitung, wodurch wir hochwertige 3D-Annotationen ohne Crowdsourcing erstellen können. Der Datensatz besteht aus 308.000 annotierten Bildern aus 2.200 Videos von 212 realen Objekten in 17 Kategorien. Wir konzentrieren uns auf Hardware- und Küchenwerkzeuge, um die Forschung in praktischen Szenarien zu fördern, in denen ein Roboterarm über einfaches Schieben oder wahlloses Greifen hinaus mit der Umgebung interagieren muss. Wir skizzieren die Nützlichkeit unseres Datensatzes für die 6-DoF kategoriebasierte Pose- und Skalenschätzung sowie verwandte Aufgaben. Zudem stellen wir 3D-rekonstruierte Meshes aller Objekte bereit und beleuchten einige der Engpässe, die für die Demokratisierung der Erstellung solcher Datensätze angegangen werden müssen.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024