ChatPaper.aiChatPaper

HANDAL: Um Conjunto de Dados de Categorias de Objetos Manipuláveis do Mundo Real com Anotações de Pose, Afordâncias e Reconstruções

HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions

August 2, 2023
Autores: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI

Resumo

Apresentamos o conjunto de dados HANDAL para estimativa de pose em nível de categoria e previsão de affordance. Diferentemente de conjuntos de dados anteriores, o nosso é focado em objetos manipuláveis prontos para robótica, que possuem o tamanho e a forma adequados para a preensão funcional por manipuladores robóticos, como alicates, utensílios e chaves de fenda. Nosso processo de anotação é simplificado, exigindo apenas uma câmera comercial e processamento semiautomatizado, permitindo-nos produzir anotações 3D de alta qualidade sem a necessidade de crowdsourcing. O conjunto de dados consiste em 308 mil quadros de imagem anotados, provenientes de 2,2 mil vídeos de 212 objetos do mundo real em 17 categorias. Focamos em objetos de ferramentas e utensílios de cozinha para facilitar pesquisas em cenários práticos nos quais um manipulador robótico precisa interagir com o ambiente além de simples empurrões ou preensões indiscriminadas. Destacamos a utilidade do nosso conjunto de dados para estimativa de pose+escala em 6 graus de liberdade (6-DoF) em nível de categoria e tarefas relacionadas. Também fornecemos malhas 3D reconstruídas de todos os objetos e destacamos alguns dos gargalos a serem abordados para democratizar a coleta de conjuntos de dados como este.
English
We present the HANDAL dataset for category-level object pose estimation and affordance prediction. Unlike previous datasets, ours is focused on robotics-ready manipulable objects that are of the proper size and shape for functional grasping by robot manipulators, such as pliers, utensils, and screwdrivers. Our annotation process is streamlined, requiring only a single off-the-shelf camera and semi-automated processing, allowing us to produce high-quality 3D annotations without crowd-sourcing. The dataset consists of 308k annotated image frames from 2.2k videos of 212 real-world objects in 17 categories. We focus on hardware and kitchen tool objects to facilitate research in practical scenarios in which a robot manipulator needs to interact with the environment beyond simple pushing or indiscriminate grasping. We outline the usefulness of our dataset for 6-DoF category-level pose+scale estimation and related tasks. We also provide 3D reconstructed meshes of all objects, and we outline some of the bottlenecks to be addressed for democratizing the collection of datasets like this one.
PDF120December 15, 2024