ChatPaper.aiChatPaper

De ObjectFolder Benchmark: Multisensorisch leren met neurale en echte objecten

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

June 1, 2023
Auteurs: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI

Samenvatting

We introduceren de ObjectFolder Benchmark, een benchmarksuite van 10 taken voor multisensorisch objectgericht leren, gericht op objectherkenning, reconstructie en manipulatie met zicht, geluid en aanraking. We introduceren ook de ObjectFolder Real dataset, die de multisensorische metingen bevat voor 100 alledaagse huishoudelijke objecten, gebaseerd op een nieuw ontworpen pipeline voor het verzamelen van 3D-meshes, video's, impactsgeluiden en tactiele metingen van echte objecten. We voeren systematische benchmarking uit op zowel de 1.000 multisensorische neurale objecten uit ObjectFolder als de echte multisensorische data uit ObjectFolder Real. Onze resultaten tonen het belang aan van multisensorische waarneming en onthullen de respectieve rollen van visie, audio en aanraking voor verschillende objectgerichte leertaken. Door onze dataset en benchmarksuite openbaar te maken, hopen we nieuw onderzoek te stimuleren en mogelijk te maken op het gebied van multisensorisch objectgericht leren in computervisie, robotica en daarbuiten. Projectpagina: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu
PDF10December 15, 2024