Zijn We Klaar met Object-Gecentreerd Leren?
Are We Done with Object-Centric Learning?
April 9, 2025
Auteurs: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI
Samenvatting
Object-centric learning (OCL) streeft naar het leren van representaties die alleen een object coderen, geïsoleerd van andere objecten of achtergrondaanwijzingen in een scène. Deze aanpak ondersteunt verschillende doelen, waaronder generalisatie buiten de distributie (OOD), sample-efficiënte compositie en het modelleren van gestructureerde omgevingen. Het meeste onderzoek heeft zich gericht op het ontwikkelen van onbewaakte mechanismen die objecten scheiden in discrete slots in de representatieruimte, geëvalueerd met behulp van onbewaakte objectdetectie. Met recente sample-efficiënte segmentatiemodellen kunnen we echter objecten scheiden in de pixelruimte en ze onafhankelijk coderen. Dit bereikt opmerkelijke zero-shot prestaties op OOD-objectdetectiebenchmarks, is schaalbaar naar foundation-modellen en kan standaard een variabel aantal slots aan. Daarom is het doel van OCL-methoden om objectgerichte representaties te verkrijgen grotendeels bereikt. Ondanks deze vooruitgang blijft een belangrijke vraag: Hoe draagt het vermogen om objecten binnen een scène te scheiden bij aan bredere OCL-doelen, zoals OOD-generalisatie? We behandelen dit door de OOD-generalisatie-uitdaging veroorzaakt door valse achtergrondaanwijzingen te onderzoeken door de lens van OCL. We stellen een nieuwe, trainingsvrije test voor genaamd Object-Centric Classification with Applied Masks (OCCAM), waaruit blijkt dat op segmentatie gebaseerde codering van individuele objecten aanzienlijk beter presteert dan op slots gebaseerde OCL-methoden. Uitdagingen in real-world toepassingen blijven echter bestaan. We bieden de toolbox aan voor de OCL-gemeenschap om schaalbare objectgerichte representaties te gebruiken, en richten ons op praktische toepassingen en fundamentele vragen, zoals het begrijpen van objectperceptie in de menselijke cognitie. Onze code is beschikbaar op https://github.com/AlexanderRubinstein/OCCAM{hier}.
English
Object-centric learning (OCL) seeks to learn representations that only encode
an object, isolated from other objects or background cues in a scene. This
approach underpins various aims, including out-of-distribution (OOD)
generalization, sample-efficient composition, and modeling of structured
environments. Most research has focused on developing unsupervised mechanisms
that separate objects into discrete slots in the representation space,
evaluated using unsupervised object discovery. However, with recent
sample-efficient segmentation models, we can separate objects in the pixel
space and encode them independently. This achieves remarkable zero-shot
performance on OOD object discovery benchmarks, is scalable to foundation
models, and can handle a variable number of slots out-of-the-box. Hence, the
goal of OCL methods to obtain object-centric representations has been largely
achieved. Despite this progress, a key question remains: How does the ability
to separate objects within a scene contribute to broader OCL objectives, such
as OOD generalization? We address this by investigating the OOD generalization
challenge caused by spurious background cues through the lens of OCL. We
propose a novel, training-free probe called Object-Centric
Classification with Applied Masks (OCCAM), demonstrating that
segmentation-based encoding of individual objects significantly outperforms
slot-based OCL methods. However, challenges in real-world applications remain.
We provide the toolbox for the OCL community to use scalable object-centric
representations, and focus on practical applications and fundamental questions,
such as understanding object perception in human cognition. Our code is
available https://github.com/AlexanderRubinstein/OCCAM{here}.