ChatPaper.aiChatPaper

Le Benchmark ObjectFolder : Apprentissage Multisensoriel avec des Objets Neuronaux et Réels

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

June 1, 2023
Auteurs: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI

Résumé

Nous présentons le benchmark ObjectFolder, une suite de 10 tâches pour l'apprentissage multisensoriel centré sur les objets, axé sur la reconnaissance, la reconstruction et la manipulation d'objets par la vue, le son et le toucher. Nous introduisons également le jeu de données ObjectFolder Real, comprenant les mesures multisensorielles de 100 objets domestiques du monde réel, en nous appuyant sur une nouvelle pipeline conçue pour collecter les maillages 3D, les vidéos, les sons d'impact et les lectures tactiles d'objets réels. Nous effectuons un benchmarking systématique à la fois sur les 1 000 objets neuronaux multisensoriels d'ObjectFolder et sur les données multisensorielles réelles d'ObjectFolder Real. Nos résultats démontrent l'importance de la perception multisensorielle et révèlent les rôles respectifs de la vision, de l'audio et du toucher pour différentes tâches d'apprentissage centrées sur les objets. En rendant publiques notre jeu de données et notre suite de benchmarks, nous espérons catalyser et permettre de nouvelles recherches dans l'apprentissage multisensoriel centré sur les objets en vision par ordinateur, robotique et au-delà. Page du projet : https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu
PDF10December 15, 2024