ChatPaper.aiChatPaper

O Benchmark ObjectFolder: Aprendizado Multissensorial com Objetos Neurais e Reais

The ObjectFolder Benchmark: Multisensory Learning with Neural and Real Objects

June 1, 2023
Autores: Ruohan Gao, Yiming Dou, Hao Li, Tanmay Agarwal, Jeannette Bohg, Yunzhu Li, Li Fei-Fei, Jiajun Wu
cs.AI

Resumo

Apresentamos o ObjectFolder Benchmark, um conjunto de benchmarks composto por 10 tarefas para aprendizado multissensorial centrado em objetos, focado em reconhecimento, reconstrução e manipulação de objetos utilizando visão, som e tato. Também introduzimos o conjunto de dados ObjectFolder Real, que inclui medições multissensoriais de 100 objetos domésticos do mundo real, desenvolvido com base em um pipeline recém-projetado para coletar malhas 3D, vídeos, sons de impacto e leituras táteis de objetos reais. Realizamos uma avaliação sistemática tanto nos 1.000 objetos neurais multissensoriais do ObjectFolder quanto nos dados multissensoriais reais do ObjectFolder Real. Nossos resultados demonstram a importância da percepção multissensorial e revelam os papéis respectivos da visão, áudio e tato em diferentes tarefas de aprendizado centrado em objetos. Ao disponibilizar publicamente nosso conjunto de dados e suíte de benchmarks, esperamos catalisar e possibilitar novas pesquisas em aprendizado multissensorial centrado em objetos na visão computacional, robótica e além. Página do projeto: https://objectfolder.stanford.edu
English
We introduce the ObjectFolder Benchmark, a benchmark suite of 10 tasks for multisensory object-centric learning, centered around object recognition, reconstruction, and manipulation with sight, sound, and touch. We also introduce the ObjectFolder Real dataset, including the multisensory measurements for 100 real-world household objects, building upon a newly designed pipeline for collecting the 3D meshes, videos, impact sounds, and tactile readings of real-world objects. We conduct systematic benchmarking on both the 1,000 multisensory neural objects from ObjectFolder, and the real multisensory data from ObjectFolder Real. Our results demonstrate the importance of multisensory perception and reveal the respective roles of vision, audio, and touch for different object-centric learning tasks. By publicly releasing our dataset and benchmark suite, we hope to catalyze and enable new research in multisensory object-centric learning in computer vision, robotics, and beyond. Project page: https://objectfolder.stanford.edu
PDF10December 15, 2024