Le Benchmark ObjectFolder : Apprentissage Multisensoriel avec des Objets Neuronaux et Réels
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
Auteurs: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
Résumé
Nous présentons le benchmark ObjectFolder, une suite de 10 tâches pour l'apprentissage multisensoriel centré sur les objets, axé sur la reconnaissance, la reconstruction et la manipulation d'objets par la vue, le son et le toucher. Nous introduisons également le jeu de données ObjectFolder Real, comprenant les mesures multisensorielles de 100 objets domestiques du monde réel, en nous appuyant sur une nouvelle pipeline conçue pour collecter les maillages 3D, les vidéos, les sons d'impact et les lectures tactiles d'objets réels. Nous effectuons un benchmarking systématique à la fois sur les 1 000 objets neuronaux multisensoriels d'ObjectFolder et sur les données multisensorielles réelles d'ObjectFolder Real. Nos résultats démontrent l'importance de la perception multisensorielle et révèlent les rôles respectifs de la vision, de l'audio et du toucher pour différentes tâches d'apprentissage centrées sur les objets. En rendant publiques notre jeu de données et notre suite de benchmarks, nous espérons catalyser et permettre de nouvelles recherches dans l'apprentissage multisensoriel centré sur les objets en vision par ordinateur, robotique et au-delà. Page du projet : https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu