OCTScenes: Een veelzijdige dataset van real-world tafelopstellingen voor object-gecentreerd leren
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning
June 16, 2023
Auteurs: Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue
cs.AI
Samenvatting
Mensen beschikken over het cognitieve vermogen om scènes op een compositionele manier te begrijpen. Om AI-systemen met vergelijkbare vaardigheden uit te rusten, streeft object-gecentreerde representatieleer ernaar om representaties van individuele objecten uit visuele scènes te verkrijgen zonder enige supervisie. Hoewel recente vooruitgang in object-gecentreerde representatieleer opmerkelijke progressie heeft geboekt op complexe synthetische datasets, is er een enorme uitdaging voor toepassing in complexe real-world scènes. Een van de essentiële redenen hiervoor is het gebrek aan real-world datasets die specifiek zijn afgestemd op object-gecentreerde representatieleermethoden. Om dit probleem op te lossen, stellen we een veelzijdige real-world dataset van tafelscènes voor object-gecentreerd leren voor, genaamd OCTScenes, die zorgvuldig is ontworpen om als benchmark te dienen voor het vergelijken, evalueren en analyseren van object-gecentreerde representatieleermethoden. OCTScenes bevat 5000 tafelscènes met in totaal 15 alledaagse objecten. Elke scène is vastgelegd in 60 frames die een 360-graden perspectief beslaan. Hierdoor is OCTScenes een veelzijdige benchmarkdataset die tegelijkertijd kan voldoen aan de evaluatie van object-gecentreerde representatieleermethoden voor statische scènes, dynamische scènes en multi-view scènetaken. Uitgebreide experimenten van object-gecentreerde representatieleermethoden voor statische, dynamische en multi-view scènes zijn uitgevoerd op OCTScenes. De resultaten tonen de tekortkomingen aan van state-of-the-art methoden voor het leren van betekenisvolle representaties uit real-world data, ondanks hun indrukwekkende prestaties op complexe synthetische datasets. Bovendien kan OCTScenes dienen als een katalysator voor het bevorderen van bestaande state-of-the-art methoden, waardoor ze worden geïnspireerd om zich aan te passen aan real-world scènes. Dataset en code zijn beschikbaar op https://huggingface.co/datasets/Yinxuan/OCTScenes.
English
Humans possess the cognitive ability to comprehend scenes in a compositional
manner. To empower AI systems with similar abilities, object-centric
representation learning aims to acquire representations of individual objects
from visual scenes without any supervision. Although recent advancements in
object-centric representation learning have achieved remarkable progress on
complex synthesis datasets, there is a huge challenge for application in
complex real-world scenes. One of the essential reasons is the scarcity of
real-world datasets specifically tailored to object-centric representation
learning methods. To solve this problem, we propose a versatile real-world
dataset of tabletop scenes for object-centric learning called OCTScenes, which
is meticulously designed to serve as a benchmark for comparing, evaluating and
analyzing object-centric representation learning methods. OCTScenes contains
5000 tabletop scenes with a total of 15 everyday objects. Each scene is
captured in 60 frames covering a 360-degree perspective. Consequently,
OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the
evaluation of object-centric representation learning methods across static
scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of
object-centric representation learning methods for static, dynamic and
multi-view scenes are conducted on OCTScenes. The results demonstrate the
shortcomings of state-of-the-art methods for learning meaningful
representations from real-world data, despite their impressive performance on
complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for
advancing existing state-of-the-art methods, inspiring them to adapt to
real-world scenes. Dataset and code are available at
https://huggingface.co/datasets/Yinxuan/OCTScenes.