ChatPaper.aiChatPaper

Il Benchmark ObjectFolder: Apprendimento Multisensoriale con Oggetti Neurali e Reali

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

June 1, 2023
Autori: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI

Abstract

Presentiamo il Benchmark ObjectFolder, una suite di 10 task per l'apprendimento multisensoriale centrato sugli oggetti, focalizzato su riconoscimento, ricostruzione e manipolazione degli oggetti attraverso vista, udito e tatto. Introduciamo inoltre il dataset ObjectFolder Real, che include misurazioni multisensoriali per 100 oggetti domestici del mondo reale, basandoci su una pipeline appositamente progettata per raccogliere mesh 3D, video, suoni d'impatto e letture tattili di oggetti reali. Eseguiamo un benchmarking sistematico sia sui 1.000 oggetti neurali multisensoriali di ObjectFolder, sia sui dati multisensoriali reali di ObjectFolder Real. I nostri risultati dimostrano l'importanza della percezione multisensoriale e rivelano i rispettivi ruoli della visione, dell'audio e del tatto per diversi task di apprendimento centrato sugli oggetti. Rendendo pubblici il nostro dataset e la suite di benchmark, speriamo di catalizzare e abilitare nuove ricerche nell'apprendimento multisensoriale centrato sugli oggetti nel campo della visione artificiale, della robotica e oltre. Pagina del progetto: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu
PDF10December 15, 2024