OCTScenes: 객체 중심 학습을 위한 다목적 실세계 탁상 장면 데이터셋
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning
June 16, 2023
저자: Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue
cs.AI
초록
인간은 장면을 구성적 방식으로 이해하는 인지 능력을 가지고 있습니다. AI 시스템이 유사한 능력을 갖추도록 하기 위해, 객체 중심 표현 학습은 시각적 장면에서 개별 객체의 표현을 어떠한 감독 없이 획득하는 것을 목표로 합니다. 최근 객체 중심 표현 학습의 발전은 복잡한 합성 데이터셋에서 놀라운 진전을 이루었지만, 복잡한 실제 세계 장면에 적용하기에는 여전히 큰 도전이 남아 있습니다. 그 중 하나의 핵심적인 이유는 객체 중심 표현 학습 방법에 특화된 실제 세계 데이터셋의 부족입니다. 이 문제를 해결하기 위해, 우리는 객체 중심 학습을 위한 다용도 실제 세계 테이블탑 장면 데이터셋인 OCTScenes를 제안합니다. 이 데이터셋은 객체 중심 표현 학습 방법을 비교, 평가, 분석하기 위한 벤치마크로 세심하게 설계되었습니다. OCTScenes은 총 15개의 일상용품으로 구성된 5000개의 테이블탑 장면을 포함하며, 각 장면은 360도 시각을 커버하는 60개의 프레임으로 촬영되었습니다. 결과적으로, OCTScenes은 정적 장면, 동적 장면, 그리고 다중 시점 장면 작업에 걸쳐 객체 중심 표현 학습 방법의 평가를 동시에 충족할 수 있는 다용도 벤치마크 데이터셋입니다. OCTScenes에서 정적, 동적, 다중 시점 장면에 대한 객체 중심 표현 학습 방법의 광범위한 실험이 수행되었습니다. 그 결과는 복잡한 합성 데이터셋에서의 인상적인 성과에도 불구하고, 실제 세계 데이터로부터 의미 있는 표현을 학습하는 최신 방법들의 한계를 보여줍니다. 더 나아가, OCTScenes은 기존의 최신 방법들이 실제 세계 장면에 적응하도록 영감을 주는 촉매제 역할을 할 수 있습니다. 데이터셋과 코드는 https://huggingface.co/datasets/Yinxuan/OCTScenes에서 확인할 수 있습니다.
English
Humans possess the cognitive ability to comprehend scenes in a compositional
manner. To empower AI systems with similar abilities, object-centric
representation learning aims to acquire representations of individual objects
from visual scenes without any supervision. Although recent advancements in
object-centric representation learning have achieved remarkable progress on
complex synthesis datasets, there is a huge challenge for application in
complex real-world scenes. One of the essential reasons is the scarcity of
real-world datasets specifically tailored to object-centric representation
learning methods. To solve this problem, we propose a versatile real-world
dataset of tabletop scenes for object-centric learning called OCTScenes, which
is meticulously designed to serve as a benchmark for comparing, evaluating and
analyzing object-centric representation learning methods. OCTScenes contains
5000 tabletop scenes with a total of 15 everyday objects. Each scene is
captured in 60 frames covering a 360-degree perspective. Consequently,
OCTScenes is a versatile benchmark dataset that can simultaneously satisfy the
evaluation of object-centric representation learning methods across static
scenes, dynamic scenes, and multi-view scenes tasks. Extensive experiments of
object-centric representation learning methods for static, dynamic and
multi-view scenes are conducted on OCTScenes. The results demonstrate the
shortcomings of state-of-the-art methods for learning meaningful
representations from real-world data, despite their impressive performance on
complex synthesis datasets. Furthermore, OCTScenes can serves as a catalyst for
advancing existing state-of-the-art methods, inspiring them to adapt to
real-world scenes. Dataset and code are available at
https://huggingface.co/datasets/Yinxuan/OCTScenes.