Sind wir mit der objektzentrierten Lernforschung am Ende?

papers.abstract

Objektzentriertes Lernen (Object-centric Learning, OCL) zielt darauf ab, Repräsentationen zu erlernen, die ausschließlich ein Objekt kodieren und es von anderen Objekten oder Hintergrundinformationen in einer Szene isolieren. Dieser Ansatz unterstützt verschiedene Ziele, darunter die Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD), effiziente Zusammensetzung mit wenigen Beispielen und die Modellierung strukturierter Umgebungen. Der Großteil der Forschung konzentrierte sich auf die Entwicklung unüberwachter Mechanismen, die Objekte in diskrete Slots im Repräsentationsraum trennen, bewertet durch unüberwachte Objekterkennung. Mit den jüngsten, probeneffizienten Segmentierungsmodellen können wir jedoch Objekte im Pixelraum trennen und unabhängig voneinander kodieren. Dies erzielt bemerkenswerte Zero-Shot-Leistungen auf OOD-Objekterkennungs-Benchmarks, ist skalierbar für Foundation-Modelle und kann eine variable Anzahl von Slots ohne Anpassungen verarbeiten. Somit wurde das Ziel von OCL-Methoden, objektzentrierte Repräsentationen zu erhalten, weitgehend erreicht. Trotz dieses Fortschritts bleibt eine zentrale Frage offen: Wie trägt die Fähigkeit, Objekte innerhalb einer Szene zu trennen, zu breiteren OCL-Zielen wie der OOD-Generalisierung bei? Wir gehen dieser Frage nach, indem wir die OOD-Generalisierungsherausforderung, die durch irreführende Hintergrundinformationen verursacht wird, durch die Linse des OCL untersuchen. Wir schlagen eine neuartige, trainingsfreie Methode namens Object-Centric Classification with Applied Masks (OCCAM) vor und zeigen, dass die segmentierungsbasierte Kodierung einzelner Objekte slot-basierte OCL-Methoden deutlich übertrifft. Dennoch bleiben Herausforderungen in realen Anwendungen bestehen. Wir stellen der OCL-Community ein Toolbox zur Verfügung, um skalierbare objektzentrierte Repräsentationen zu nutzen, und konzentrieren uns auf praktische Anwendungen und grundlegende Fragen, wie das Verständnis der Objektwahrnehmung in der menschlichen Kognition. Unser Code ist verfügbar unter https://github.com/AlexanderRubinstein/OCCAM{hier}.

English

Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available https://github.com/AlexanderRubinstein/OCCAM{here}.

Sind wir mit der objektzentrierten Lernforschung am Ende?

Are We Done with Object-Centric Learning?

papers.abstract

Support