ChatPaper.aiChatPaper

OCTScenes: Un Conjunto de Datos Versátil de Escenas de Mesas del Mundo Real para el Aprendizaje Centrado en Objetos

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

June 16, 2023
Autores: Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue
cs.AI

Resumen

Los seres humanos poseen la capacidad cognitiva de comprender escenas de manera composicional. Para dotar a los sistemas de IA con habilidades similares, el aprendizaje de representaciones centradas en objetos tiene como objetivo adquirir representaciones de objetos individuales a partir de escenas visuales sin supervisión alguna. Aunque los avances recientes en el aprendizaje de representaciones centradas en objetos han logrado un progreso notable en conjuntos de datos de síntesis complejos, existe un gran desafío para su aplicación en escenas del mundo real complejas. Una de las razones esenciales es la escasez de conjuntos de datos del mundo real específicamente diseñados para métodos de aprendizaje de representaciones centradas en objetos. Para resolver este problema, proponemos un conjunto de datos versátil de escenas de mesas para el aprendizaje centrado en objetos llamado OCTScenes, que está meticulosamente diseñado para servir como un punto de referencia para comparar, evaluar y analizar métodos de aprendizaje de representaciones centradas en objetos. OCTScenes contiene 5000 escenas de mesas con un total de 15 objetos cotidianos. Cada escena se captura en 60 fotogramas que cubren una perspectiva de 360 grados. En consecuencia, OCTScenes es un conjunto de datos de referencia versátil que puede satisfacer simultáneamente la evaluación de métodos de aprendizaje de representaciones centradas en objetos en tareas de escenas estáticas, dinámicas y de múltiples vistas. Se realizaron experimentos extensos de métodos de aprendizaje de representaciones centradas en objetos para escenas estáticas, dinámicas y de múltiples vistas en OCTScenes. Los resultados demuestran las deficiencias de los métodos más avanzados para aprender representaciones significativas a partir de datos del mundo real, a pesar de su impresionante rendimiento en conjuntos de datos de síntesis complejos. Además, OCTScenes puede servir como un catalizador para avanzar en los métodos más avanzados existentes, inspirándolos a adaptarse a escenas del mundo real. El conjunto de datos y el código están disponibles en https://huggingface.co/datasets/Yinxuan/OCTScenes.
English
Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in object-centric representation learning have achieved remarkable progress on complex synthesis datasets, there is a huge challenge for application in complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric representation learning methods. To solve this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating and analyzing object-centric representation learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 everyday objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric representation learning methods across static scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of object-centric representation learning methods for static, dynamic and multi-view scenes are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for advancing existing state-of-the-art methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.
PDF60December 15, 2024