De ObjectFolder Benchmark: Multisensorisch leren met neurale en echte objecten
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
Auteurs: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
Samenvatting
We introduceren de ObjectFolder Benchmark, een benchmarksuite van 10 taken voor multisensorisch objectgericht leren, gericht op objectherkenning, reconstructie en manipulatie met zicht, geluid en aanraking. We introduceren ook de ObjectFolder Real dataset, die de multisensorische metingen bevat voor 100 alledaagse huishoudelijke objecten, gebaseerd op een nieuw ontworpen pipeline voor het verzamelen van 3D-meshes, video's, impactsgeluiden en tactiele metingen van echte objecten. We voeren systematische benchmarking uit op zowel de 1.000 multisensorische neurale objecten uit ObjectFolder als de echte multisensorische data uit ObjectFolder Real. Onze resultaten tonen het belang aan van multisensorische waarneming en onthullen de respectieve rollen van visie, audio en aanraking voor verschillende objectgerichte leertaken. Door onze dataset en benchmarksuite openbaar te maken, hopen we nieuw onderzoek te stimuleren en mogelijk te maken op het gebied van multisensorisch objectgericht leren in computervisie, robotica en daarbuiten. Projectpagina: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu