Der ObjectFolder-Benchmark: Multisensorisches Lernen mit neuronalen und realen Objekten

Zusammenfassung

Wir stellen den ObjectFolder Benchmark vor, eine Benchmark-Suite mit 10 Aufgaben für multisensorisches, objektzentriertes Lernen, die sich auf Objekterkennung, Rekonstruktion und Manipulation mit Sehen, Hören und Tasten konzentriert. Zudem präsentieren wir das ObjectFolder Real Dataset, das multisensorische Messungen für 100 reale Haushaltsgegenstände umfasst und auf einer neu entwickelten Pipeline zur Erfassung von 3D-Modellen, Videos, Aufprallgeräuschen und taktilen Messungen realer Objekte basiert. Wir führen systematische Benchmarking-Studien sowohl mit den 1.000 multisensorischen neuronalen Objekten aus ObjectFolder als auch mit den realen multisensorischen Daten aus ObjectFolder Real durch. Unsere Ergebnisse unterstreichen die Bedeutung der multisensorischen Wahrnehmung und zeigen die jeweiligen Rollen von Vision, Audio und Tasten für verschiedene objektzentrierte Lernaufgaben auf. Durch die öffentliche Bereitstellung unseres Datensatzes und der Benchmark-Suite hoffen wir, neue Forschungsansätze im Bereich des multisensorischen, objektzentrierten Lernens in der Computer Vision, Robotik und darüber hinaus anzuregen und zu ermöglichen. Projektseite: https://objectfolder.stanford.edu

English

We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu

Der ObjectFolder-Benchmark: Multisensorisches Lernen mit neuronalen und realen Objekten

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

Zusammenfassung

Support