OCTScenes: Een veelzijdige dataset van real-world tafelopstellingen voor object-gecentreerd leren

Samenvatting

Mensen beschikken over het cognitieve vermogen om scènes op een compositionele manier te begrijpen. Om AI-systemen met vergelijkbare vaardigheden uit te rusten, streeft object-gecentreerde representatieleer ernaar om representaties van individuele objecten uit visuele scènes te verkrijgen zonder enige supervisie. Hoewel recente vooruitgang in object-gecentreerde representatieleer opmerkelijke progressie heeft geboekt op complexe synthetische datasets, is er een enorme uitdaging voor toepassing in complexe real-world scènes. Een van de essentiële redenen hiervoor is het gebrek aan real-world datasets die specifiek zijn afgestemd op object-gecentreerde representatieleermethoden. Om dit probleem op te lossen, stellen we een veelzijdige real-world dataset van tafelscènes voor object-gecentreerd leren voor, genaamd OCTScenes, die zorgvuldig is ontworpen om als benchmark te dienen voor het vergelijken, evalueren en analyseren van object-gecentreerde representatieleermethoden. OCTScenes bevat 5000 tafelscènes met in totaal 15 alledaagse objecten. Elke scène is vastgelegd in 60 frames die een 360-graden perspectief beslaan. Hierdoor is OCTScenes een veelzijdige benchmarkdataset die tegelijkertijd kan voldoen aan de evaluatie van object-gecentreerde representatieleermethoden voor statische scènes, dynamische scènes en multi-view scènetaken. Uitgebreide experimenten van object-gecentreerde representatieleermethoden voor statische, dynamische en multi-view scènes zijn uitgevoerd op OCTScenes. De resultaten tonen de tekortkomingen aan van state-of-the-art methoden voor het leren van betekenisvolle representaties uit real-world data, ondanks hun indrukwekkende prestaties op complexe synthetische datasets. Bovendien kan OCTScenes dienen als een katalysator voor het bevorderen van bestaande state-of-the-art methoden, waardoor ze worden geïnspireerd om zich aan te passen aan real-world scènes. Dataset en code zijn beschikbaar op https://huggingface.co/datasets/Yinxuan/OCTScenes.

English

Humans possess the cognitive ability to comprehend scenes in a compositional manner. To empower AI systems with similar abilities, object-centric representation learning aims to acquire representations of individual objects from visual scenes without any supervision. Although recent advancements in object-centric representation learning have achieved remarkable progress on complex synthesis datasets, there is a huge challenge for application in complex real-world scenes. One of the essential reasons is the scarcity of real-world datasets specifically tailored to object-centric representation learning methods. To solve this problem, we propose a versatile real-world dataset of tabletop scenes for object-centric learning called OCTScenes, which is meticulously designed to serve as a benchmark for comparing, evaluating and analyzing object-centric representation learning methods. OCTScenes contains 5000 tabletop scenes with a total of 15 everyday objects. Each scene is captured in 60 frames covering a 360-degree perspective. Consequently, OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the evaluation of object-centric representation learning methods across static scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of object-centric representation learning methods for static, dynamic and multi-view scenes are conducted on OCTScenes. The results demonstrate the shortcomings of state-of-the-art methods for learning meaningful representations from real-world data, despite their impressive performance on complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for advancing existing state-of-the-art methods, inspiring them to adapt to real-world scenes. Dataset and code are available at https://huggingface.co/datasets/Yinxuan/OCTScenes.

OCTScenes: Een veelzijdige dataset van real-world tafelopstellingen voor object-gecentreerd leren

OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

Samenvatting

Support