El Benchmark ObjectFolder: Aprendizaje Multisensorial con Objetos Neuronales y Reales
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
Autores: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
Resumen
Presentamos el ObjectFolder Benchmark, un conjunto de 10 tareas de referencia para el aprendizaje multisensorial centrado en objetos, enfocado en el reconocimiento, reconstrucción y manipulación de objetos mediante la vista, el sonido y el tacto. También introducimos el conjunto de datos ObjectFolder Real, que incluye mediciones multisensoriales de 100 objetos domésticos del mundo real, basado en una nueva pipeline diseñada para recopilar mallas 3D, videos, sonidos de impacto y lecturas táctiles de objetos reales. Realizamos una evaluación sistemática tanto en los 1,000 objetos neuronales multisensoriales de ObjectFolder como en los datos multisensoriales reales de ObjectFolder Real. Nuestros resultados demuestran la importancia de la percepción multisensorial y revelan los roles respectivos de la visión, el audio y el tacto en diferentes tareas de aprendizaje centrado en objetos. Al publicar nuestro conjunto de datos y suite de referencia, esperamos catalizar y habilitar nuevas investigaciones en el aprendizaje multisensorial centrado en objetos en visión por computadora, robótica y más allá. Página del proyecto: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu