HANDAL: 포즈 주석, 어포던스 및 재구성을 포함한 실제 조작 가능 물체 카테고리 데이터셋
HANDAL: A Dataset of Real-World Manipulable Object Categories with Pose Annotations, Affordances, and Reconstructions
August 2, 2023
저자: Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield
cs.AI
초록
카테고리 수준의 물체 포즈 추정 및 어포던스 예측을 위한 HANDAL 데이터셋을 소개한다. 기존 데이터셋과 달리, 본 데이터셋은 로봇 매니퓰레이터가 기능적으로 파지하기에 적합한 크기와 형태를 가진 로봇 조작 가능 물체, 예를 들어 플라이어, 식기류, 드라이버 등에 초점을 맞추고 있다. 우리의 주석 프로세스는 단일 상용 카메라와 반자동화된 처리만으로도 고품질 3D 주석을 생성할 수 있도록 간소화되어 있어 크라우드소싱이 필요하지 않다. 이 데이터셋은 17개 카테고리의 212개 실제 물체에 대한 2.2k개의 비디오에서 추출한 308k개의 주석이 달린 이미지 프레임으로 구성된다. 우리는 하드웨어 및 주방 도구 물체에 초점을 맞춰 로봇 매니퓰레이터가 단순한 밀기나 무분별한 파지 이상으로 환경과 상호작용해야 하는 실제 시나리오 연구를 촉진한다. 6-DoF 카테고리 수준 포즈+스케일 추정 및 관련 작업에 대한 본 데이터셋의 유용성을 설명한다. 또한 모든 물체의 3D 재구성 메쉬를 제공하고, 이러한 데이터셋 수집의 대중화를 위해 해결해야 할 몇 가지 병목 현상을 제시한다.
English
We present the HANDAL dataset for category-level object pose estimation and
affordance prediction. Unlike previous datasets, ours is focused on
robotics-ready manipulable objects that are of the proper size and shape for
functional grasping by robot manipulators, such as pliers, utensils, and
screwdrivers. Our annotation process is streamlined, requiring only a single
off-the-shelf camera and semi-automated processing, allowing us to produce
high-quality 3D annotations without crowd-sourcing. The dataset consists of
308k annotated image frames from 2.2k videos of 212 real-world objects in 17
categories. We focus on hardware and kitchen tool objects to facilitate
research in practical scenarios in which a robot manipulator needs to interact
with the environment beyond simple pushing or indiscriminate grasping. We
outline the usefulness of our dataset for 6-DoF category-level pose+scale
estimation and related tasks. We also provide 3D reconstructed meshes of all
objects, and we outline some of the bottlenecks to be addressed for
democratizing the collection of datasets like this one.