Scoprire e utilizzare i segmenti di Spelke

Abstract

Nella visione artificiale, i segmenti sono spesso definiti da considerazioni semantiche e dipendono fortemente da convenzioni specifiche per categoria. Al contrario, la psicologia dello sviluppo suggerisce che gli esseri umani percepiscono il mondo in termini di oggetti di Spelke—raggruppamenti di entità fisiche che si muovono insieme in modo affidabile quando sottoposti a forze fisiche. Gli oggetti di Spelke operano quindi su relazioni causali di movimento indipendenti dalla categoria, che potenzialmente supportano meglio compiti come la manipolazione e la pianificazione. In questo articolo, iniziamo valutando il concetto di oggetto di Spelke, introducendo il dataset SpelkeBench che contiene una vasta gamma di segmenti di Spelke ben definiti in immagini naturali. Successivamente, per estrarre algoritmicamente i segmenti di Spelke dalle immagini, costruiamo SpelkeNet, una classe di modelli del mondo visivo addestrati a prevedere distribuzioni sui movimenti futuri. SpelkeNet supporta la stima di due concetti chiave per la scoperta degli oggetti di Spelke: (1) la mappa delle affordance di movimento, che identifica le regioni probabilmente soggette a movimento in seguito a una spinta, e (2) la mappa degli spostamenti attesi, che cattura come il resto della scena si muoverà. Questi concetti sono utilizzati per il "probing controfattuale statistico", dove diverse "spinte virtuali" vengono applicate su regioni con alta affordance di movimento, e le mappe degli spostamenti attesi risultanti sono utilizzate per definire i segmenti di Spelke come aggregati statistici di statistiche di movimento correlate. Troviamo che SpelkeNet supera i baseline supervisionati come SegmentAnything (SAM) su SpelkeBench. Infine, dimostriamo che il concetto di Spelke è praticamente utile per applicazioni downstream, ottenendo prestazioni superiori sul benchmark 3DEditBench per la manipolazione di oggetti fisici quando utilizzato in una varietà di modelli di manipolazione di oggetti pronti all'uso.

English

Segments in computer vision are often defined by semantic considerations and are highly dependent on category-specific conventions. In contrast, developmental psychology suggests that humans perceive the world in terms of Spelke objects--groupings of physical things that reliably move together when acted on by physical forces. Spelke objects thus operate on category-agnostic causal motion relationships which potentially better support tasks like manipulation and planning. In this paper, we first benchmark the Spelke object concept, introducing the SpelkeBench dataset that contains a wide variety of well-defined Spelke segments in natural images. Next, to extract Spelke segments from images algorithmically, we build SpelkeNet, a class of visual world models trained to predict distributions over future motions. SpelkeNet supports estimation of two key concepts for Spelke object discovery: (1) the motion affordance map, identifying regions likely to move under a poke, and (2) the expected-displacement map, capturing how the rest of the scene will move. These concepts are used for "statistical counterfactual probing", where diverse "virtual pokes" are applied on regions of high motion-affordance, and the resultant expected displacement maps are used define Spelke segments as statistical aggregates of correlated motion statistics. We find that SpelkeNet outperforms supervised baselines like SegmentAnything (SAM) on SpelkeBench. Finally, we show that the Spelke concept is practically useful for downstream applications, yielding superior performance on the 3DEditBench benchmark for physical object manipulation when used in a variety of off-the-shelf object manipulation models.

Scoprire e utilizzare i segmenti di Spelke

Discovering and using Spelke segments

Abstract

Support