Бенчмарк ObjectFolder: Мультисенсорное обучение с использованием нейронных и реальных объектов
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
Авторы: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
Аннотация
Мы представляем ObjectFolder Benchmark — набор из 10 задач для мультисенсорного объектно-ориентированного обучения, сосредоточенных на распознавании, реконструкции и манипуляции объектами с использованием зрения, слуха и осязания. Также мы представляем набор данных ObjectFolder Real, включающий мультисенсорные измерения для 100 реальных бытовых объектов, созданный на основе новой методики сбора 3D-моделей, видео, звуков ударов и тактильных показаний реальных объектов. Мы проводим систематическое тестирование как на 1 000 мультисенсорных нейронных объектах из ObjectFolder, так и на реальных мультисенсорных данных из ObjectFolder Real. Наши результаты демонстрируют важность мультисенсорного восприятия и раскрывают роли зрения, звука и осязания в различных объектно-ориентированных задачах. Публикуя наш набор данных и набор тестов, мы надеемся стимулировать и поддержать новые исследования в области мультисенсорного объектно-ориентированного обучения в компьютерном зрении, робототехнике и других областях. Страница проекта: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu