Scoprire e utilizzare i segmenti di Spelke
Discovering and using Spelke segments
July 21, 2025
Autori: Rahul Venkatesh, Klemen Kotar, Lilian Naing Chen, Seungwoo Kim, Luca Thomas Wheeler, Jared Watrous, Ashley Xu, Gia Ancone, Wanhee Lee, Honglin Chen, Daniel Bear, Stefan Stojanov, Daniel Yamins
cs.AI
Abstract
Nella visione artificiale, i segmenti sono spesso definiti da considerazioni semantiche e dipendono fortemente da convenzioni specifiche per categoria. Al contrario, la psicologia dello sviluppo suggerisce che gli esseri umani percepiscono il mondo in termini di oggetti di Spelke—raggruppamenti di entità fisiche che si muovono insieme in modo affidabile quando sottoposti a forze fisiche. Gli oggetti di Spelke operano quindi su relazioni causali di movimento indipendenti dalla categoria, che potenzialmente supportano meglio compiti come la manipolazione e la pianificazione. In questo articolo, iniziamo valutando il concetto di oggetto di Spelke, introducendo il dataset SpelkeBench che contiene una vasta gamma di segmenti di Spelke ben definiti in immagini naturali. Successivamente, per estrarre algoritmicamente i segmenti di Spelke dalle immagini, costruiamo SpelkeNet, una classe di modelli del mondo visivo addestrati a prevedere distribuzioni sui movimenti futuri. SpelkeNet supporta la stima di due concetti chiave per la scoperta degli oggetti di Spelke: (1) la mappa delle affordance di movimento, che identifica le regioni probabilmente soggette a movimento in seguito a una spinta, e (2) la mappa degli spostamenti attesi, che cattura come il resto della scena si muoverà. Questi concetti sono utilizzati per il "probing controfattuale statistico", dove diverse "spinte virtuali" vengono applicate su regioni con alta affordance di movimento, e le mappe degli spostamenti attesi risultanti sono utilizzate per definire i segmenti di Spelke come aggregati statistici di statistiche di movimento correlate. Troviamo che SpelkeNet supera i baseline supervisionati come SegmentAnything (SAM) su SpelkeBench. Infine, dimostriamo che il concetto di Spelke è praticamente utile per applicazioni downstream, ottenendo prestazioni superiori sul benchmark 3DEditBench per la manipolazione di oggetti fisici quando utilizzato in una varietà di modelli di manipolazione di oggetti pronti all'uso.
English
Segments in computer vision are often defined by semantic considerations and
are highly dependent on category-specific conventions. In contrast,
developmental psychology suggests that humans perceive the world in terms of
Spelke objects--groupings of physical things that reliably move together when
acted on by physical forces. Spelke objects thus operate on category-agnostic
causal motion relationships which potentially better support tasks like
manipulation and planning. In this paper, we first benchmark the Spelke object
concept, introducing the SpelkeBench dataset that contains a wide variety of
well-defined Spelke segments in natural images. Next, to extract Spelke
segments from images algorithmically, we build SpelkeNet, a class of visual
world models trained to predict distributions over future motions. SpelkeNet
supports estimation of two key concepts for Spelke object discovery: (1) the
motion affordance map, identifying regions likely to move under a poke, and (2)
the expected-displacement map, capturing how the rest of the scene will move.
These concepts are used for "statistical counterfactual probing", where diverse
"virtual pokes" are applied on regions of high motion-affordance, and the
resultant expected displacement maps are used define Spelke segments as
statistical aggregates of correlated motion statistics. We find that SpelkeNet
outperforms supervised baselines like SegmentAnything (SAM) on SpelkeBench.
Finally, we show that the Spelke concept is practically useful for downstream
applications, yielding superior performance on the 3DEditBench benchmark for
physical object manipulation when used in a variety of off-the-shelf object
manipulation models.