ObjectFolder 벤치마크: 신경망 및 실제 객체를 활용한 다중 감각 학습
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
저자: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
초록
우리는 시각, 청각, 촉각을 활용한 물체 인식, 재구성, 조작을 중심으로 하는 다중 감각 물체 중심 학습을 위한 10가지 과제로 구성된 벤치마크 제품군인 ObjectFolder 벤치마크를 소개합니다. 또한, 실제 세계의 가정용 물체 100개에 대한 다중 감각 측정 데이터를 포함한 ObjectFolder Real 데이터셋을 소개하며, 이는 실제 물체의 3D 메시, 비디오, 충격음, 촉각 데이터를 수집하기 위해 새롭게 설계된 파이프라인을 기반으로 구축되었습니다. 우리는 ObjectFolder의 1,000개 다중 감각 신경 물체와 ObjectFolder Real의 실제 다중 감각 데이터 모두에 대해 체계적인 벤치마킹을 수행했습니다. 실험 결과는 다중 감각 인식의 중요성을 입증하고, 다양한 물체 중심 학습 과제에서 시각, 청각, 촉각이 각각 수행하는 역할을 밝혀냈습니다. 우리는 데이터셋과 벤치마크 제품군을 공개함으로써 컴퓨터 비전, 로보틱스 및 그 이상의 분야에서 다중 감각 물체 중심 학습에 대한 새로운 연구를 촉진하고 지원하기를 희망합니다. 프로젝트 페이지: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu