스펠케 세그먼트의 발견과 활용
Discovering and using Spelke segments
July 21, 2025
저자: Rahul Venkatesh, Klemen Kotar, Lilian Naing Chen, Seungwoo Kim, Luca Thomas Wheeler, Jared Watrous, Ashley Xu, Gia Ancone, Wanhee Lee, Honglin Chen, Daniel Bear, Stefan Stojanov, Daniel Yamins
cs.AI
초록
컴퓨터 비전에서 세그먼트는 종종 의미론적 고려사항에 의해 정의되며, 범주별 관례에 크게 의존합니다. 반면, 발달 심리학은 인간이 물리적 힘에 의해 함께 움직이는 물리적 사물들의 그룹인 '스펠크 객체(Spelke objects)'의 관점에서 세상을 인지한다고 제안합니다. 따라서 스펠크 객체는 범주에 구애받지 않는 인과적 운동 관계에 기반하여 작동하며, 이는 조작 및 계획과 같은 작업에 더 적합할 가능성이 있습니다. 본 논문에서는 먼저 스펠크 객체 개념을 벤치마킹하고, 자연 이미지에서 다양한 잘 정의된 스펠크 세그먼트를 포함한 SpelkeBench 데이터셋을 소개합니다. 다음으로, 이미지에서 스펠크 세그먼트를 알고리즘적으로 추출하기 위해 미래 운동 분포를 예측하도록 훈련된 시각적 세계 모델 클래스인 SpelkeNet을 구축합니다. SpelkeNet은 스펠크 객체 발견을 위한 두 가지 핵심 개념을 추정할 수 있도록 지원합니다: (1) 터치 시 움직일 가능성이 높은 영역을 식별하는 '운동 가능성 맵(motion affordance map)', 그리고 (2) 나머지 장면이 어떻게 움직일지를 포착하는 '예상 변위 맵(expected-displacement map)'. 이러한 개념은 '통계적 반사실적 탐색(statistical counterfactual probing)'에 사용되며, 여기서는 높은 운동 가능성을 가진 영역에 다양한 '가상 터치(virtual pokes)'를 적용하고, 그 결과로 생성된 예상 변위 맵을 사용하여 상관된 운동 통계의 집합으로 스펠크 세그먼트를 정의합니다. 우리는 SpelkeNet이 SpelkeBench에서 SegmentAnything(SAM)과 같은 지도 학습 기반 모델을 능가함을 발견했습니다. 마지막으로, 스펠크 개념이 다양한 오프더셰프 객체 조작 모델에서 사용될 때 물리적 객체 조작을 위한 3DEditBench 벤치마크에서 우수한 성능을 보이며, 실제 응용 프로그램에 유용함을 입증합니다.
English
Segments in computer vision are often defined by semantic considerations and
are highly dependent on category-specific conventions. In contrast,
developmental psychology suggests that humans perceive the world in terms of
Spelke objects--groupings of physical things that reliably move together when
acted on by physical forces. Spelke objects thus operate on category-agnostic
causal motion relationships which potentially better support tasks like
manipulation and planning. In this paper, we first benchmark the Spelke object
concept, introducing the SpelkeBench dataset that contains a wide variety of
well-defined Spelke segments in natural images. Next, to extract Spelke
segments from images algorithmically, we build SpelkeNet, a class of visual
world models trained to predict distributions over future motions. SpelkeNet
supports estimation of two key concepts for Spelke object discovery: (1) the
motion affordance map, identifying regions likely to move under a poke, and (2)
the expected-displacement map, capturing how the rest of the scene will move.
These concepts are used for "statistical counterfactual probing", where diverse
"virtual pokes" are applied on regions of high motion-affordance, and the
resultant expected displacement maps are used define Spelke segments as
statistical aggregates of correlated motion statistics. We find that SpelkeNet
outperforms supervised baselines like SegmentAnything (SAM) on SpelkeBench.
Finally, we show that the Spelke concept is practically useful for downstream
applications, yielding superior performance on the 3DEditBench benchmark for
physical object manipulation when used in a variety of off-the-shelf object
manipulation models.