Zijn We Klaar met Object-Gecentreerd Leren?

Samenvatting

Object-centric learning (OCL) streeft naar het leren van representaties die alleen een object coderen, geïsoleerd van andere objecten of achtergrondaanwijzingen in een scène. Deze aanpak ondersteunt verschillende doelen, waaronder generalisatie buiten de distributie (OOD), sample-efficiënte compositie en het modelleren van gestructureerde omgevingen. Het meeste onderzoek heeft zich gericht op het ontwikkelen van onbewaakte mechanismen die objecten scheiden in discrete slots in de representatieruimte, geëvalueerd met behulp van onbewaakte objectdetectie. Met recente sample-efficiënte segmentatiemodellen kunnen we echter objecten scheiden in de pixelruimte en ze onafhankelijk coderen. Dit bereikt opmerkelijke zero-shot prestaties op OOD-objectdetectiebenchmarks, is schaalbaar naar foundation-modellen en kan standaard een variabel aantal slots aan. Daarom is het doel van OCL-methoden om objectgerichte representaties te verkrijgen grotendeels bereikt. Ondanks deze vooruitgang blijft een belangrijke vraag: Hoe draagt het vermogen om objecten binnen een scène te scheiden bij aan bredere OCL-doelen, zoals OOD-generalisatie? We behandelen dit door de OOD-generalisatie-uitdaging veroorzaakt door valse achtergrondaanwijzingen te onderzoeken door de lens van OCL. We stellen een nieuwe, trainingsvrije test voor genaamd Object-Centric Classification with Applied Masks (OCCAM), waaruit blijkt dat op segmentatie gebaseerde codering van individuele objecten aanzienlijk beter presteert dan op slots gebaseerde OCL-methoden. Uitdagingen in real-world toepassingen blijven echter bestaan. We bieden de toolbox aan voor de OCL-gemeenschap om schaalbare objectgerichte representaties te gebruiken, en richten ons op praktische toepassingen en fundamentele vragen, zoals het begrijpen van objectperceptie in de menselijke cognitie. Onze code is beschikbaar op https://github.com/AlexanderRubinstein/OCCAM{hier}.

English

Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available https://github.com/AlexanderRubinstein/OCCAM{here}.

Zijn We Klaar met Object-Gecentreerd Leren?

Are We Done with Object-Centric Learning?

Samenvatting

Support