ChatPaper.aiChatPaper

HANDAL: Un Dataset di Categorie di Oggetti Manipolabili del Mondo Reale con Annotazioni di Posa, Affordance e Ricostruzioni

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Autori: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Abstract

Presentiamo il dataset HANDAL per la stima della posa a livello di categoria e la previsione delle affordance. A differenza dei dataset precedenti, il nostro si concentra su oggetti manipolabili pronti per la robotica, di dimensioni e forma adeguate per una presa funzionale da parte di manipolatori robotici, come pinze, utensili e cacciaviti. Il nostro processo di annotazione è semplificato, richiedendo solo una singola fotocamera commerciale e un'elaborazione semi-automatizzata, consentendoci di produrre annotazioni 3D di alta qualità senza ricorrere al crowdsourcing. Il dataset è composto da 308k fotogrammi annotati provenienti da 2.2k video di 212 oggetti del mondo reale in 17 categorie. Ci concentriamo su oggetti di hardware e utensili da cucina per facilitare la ricerca in scenari pratici in cui un manipolatore robotico deve interagire con l'ambiente oltre il semplice spostamento o la presa indiscriminata. Descriviamo l'utilità del nostro dataset per la stima della posa+scala a 6 gradi di libertà a livello di categoria e per compiti correlati. Forniamo inoltre mesh ricostruite in 3D di tutti gli oggetti e delineiamo alcuni dei colli di bottiglia da affrontare per democratizzare la raccolta di dataset come questo.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024