Der ObjectFolder-Benchmark: Multisensorisches Lernen mit neuronalen und realen Objekten
The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects
June 1, 2023
Autoren: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI
Zusammenfassung
Wir stellen den ObjectFolder Benchmark vor, eine Benchmark-Suite mit 10 Aufgaben für multisensorisches, objektzentriertes Lernen, die sich auf Objekterkennung, Rekonstruktion und Manipulation mit Sehen, Hören und Tasten konzentriert. Zudem präsentieren wir das ObjectFolder Real Dataset, das multisensorische Messungen für 100 reale Haushaltsgegenstände umfasst und auf einer neu entwickelten Pipeline zur Erfassung von 3D-Modellen, Videos, Aufprallgeräuschen und taktilen Messungen realer Objekte basiert. Wir führen systematische Benchmarking-Studien sowohl mit den 1.000 multisensorischen neuronalen Objekten aus ObjectFolder als auch mit den realen multisensorischen Daten aus ObjectFolder Real durch. Unsere Ergebnisse unterstreichen die Bedeutung der multisensorischen Wahrnehmung und zeigen die jeweiligen Rollen von Vision, Audio und Tasten für verschiedene objektzentrierte Lernaufgaben auf. Durch die öffentliche Bereitstellung unseres Datensatzes und der Benchmark-Suite hoffen wir, neue Forschungsansätze im Bereich des multisensorischen, objektzentrierten Lernens in der Computer Vision, Robotik und darüber hinaus anzuregen und zu ermöglichen. Projektseite: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for
multisensory object-centric learning, centered around object recognition,
reconstruction, and manipulation with sight, sound, and touch. We also
introduce the ObjectFolder Real dataset, including the multisensory
measurements for 100 real-world household objects, building upon a newly
designed pipeline for collecting the 3D meshes, videos, impact sounds, and
tactile readings of real-world objects. We conduct systematic benchmarking on
both the 1,000 multisensory neural objects from ObjectFolder, and the real
multisensory data from ObjectFolder Real. Our results demonstrate the
importance of multisensory perception and reveal the respective roles of
vision, audio, and touch for different object-centric learning tasks. By
publicly releasing our dataset and benchmark suite, we hope to catalyze and
enable new research in multisensory object-centric learning in computer vision,
robotics, and beyond. Project page: https://objectfolder.stanford.edu