Sind wir mit der objektzentrierten Lernforschung am Ende?
Are We Done with Object-Centric Learning?
April 9, 2025
Autoren: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI
Zusammenfassung
Objektzentriertes Lernen (Object-centric Learning, OCL) zielt darauf ab, Repräsentationen zu erlernen, die ausschließlich ein Objekt kodieren und es von anderen Objekten oder Hintergrundinformationen in einer Szene isolieren. Dieser Ansatz unterstützt verschiedene Ziele, darunter die Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD), effiziente Zusammensetzung mit wenigen Beispielen und die Modellierung strukturierter Umgebungen. Der Großteil der Forschung konzentrierte sich auf die Entwicklung unüberwachter Mechanismen, die Objekte in diskrete Slots im Repräsentationsraum trennen, bewertet durch unüberwachte Objekterkennung. Mit den jüngsten, probeneffizienten Segmentierungsmodellen können wir jedoch Objekte im Pixelraum trennen und unabhängig voneinander kodieren. Dies erzielt bemerkenswerte Zero-Shot-Leistungen auf OOD-Objekterkennungs-Benchmarks, ist skalierbar für Foundation-Modelle und kann eine variable Anzahl von Slots ohne Anpassungen verarbeiten. Somit wurde das Ziel von OCL-Methoden, objektzentrierte Repräsentationen zu erhalten, weitgehend erreicht. Trotz dieses Fortschritts bleibt eine zentrale Frage offen: Wie trägt die Fähigkeit, Objekte innerhalb einer Szene zu trennen, zu breiteren OCL-Zielen wie der OOD-Generalisierung bei? Wir gehen dieser Frage nach, indem wir die OOD-Generalisierungsherausforderung, die durch irreführende Hintergrundinformationen verursacht wird, durch die Linse des OCL untersuchen. Wir schlagen eine neuartige, trainingsfreie Methode namens Object-Centric Classification with Applied Masks (OCCAM) vor und zeigen, dass die segmentierungsbasierte Kodierung einzelner Objekte slot-basierte OCL-Methoden deutlich übertrifft. Dennoch bleiben Herausforderungen in realen Anwendungen bestehen. Wir stellen der OCL-Community ein Toolbox zur Verfügung, um skalierbare objektzentrierte Repräsentationen zu nutzen, und konzentrieren uns auf praktische Anwendungen und grundlegende Fragen, wie das Verständnis der Objektwahrnehmung in der menschlichen Kognition. Unser Code ist verfügbar unter https://github.com/AlexanderRubinstein/OCCAM{hier}.
English
Object-centric learning (OCL) seeks to learn representations that only encode
an object, isolated from other objects or background cues in a scene. This
approach underpins various aims, including out-of-distribution (OOD)
generalization, sample-efficient composition, and modeling of structured
environments. Most research has focused on developing unsupervised mechanisms
that separate objects into discrete slots in the representation space,
evaluated using unsupervised object discovery. However, with recent
sample-efficient segmentation models, we can separate objects in the pixel
space and encode them independently. This achieves remarkable zero-shot
performance on OOD object discovery benchmarks, is scalable to foundation
models, and can handle a variable number of slots out-of-the-box. Hence, the
goal of OCL methods to obtain object-centric representations has been largely
achieved. Despite this progress, a key question remains: How does the ability
to separate objects within a scene contribute to broader OCL objectives, such
as OOD generalization? We address this by investigating the OOD generalization
challenge caused by spurious background cues through the lens of OCL. We
propose a novel, training-free probe called Object-Centric
Classification with Applied Masks (OCCAM), demonstrating that
segmentation-based encoding of individual objects significantly outperforms
slot-based OCL methods. However, challenges in real-world applications remain.
We provide the toolbox for the OCL community to use scalable object-centric
representations, and focus on practical applications and fundamental questions,
such as understanding object perception in human cognition. Our code is
available https://github.com/AlexanderRubinstein/OCCAM{here}.Summary
AI-Generated Summary