ChatPaper.aiChatPaper

Avons-nous terminé avec l'apprentissage centré sur les objets ?

Are We Done with Object-Centric Learning?

April 9, 2025
Auteurs: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI

Résumé

L'apprentissage centré sur les objets (Object-Centric Learning, OCL) vise à apprendre des représentations qui encodent uniquement un objet, isolé des autres objets ou des indices contextuels dans une scène. Cette approche soutient divers objectifs, notamment la généralisation hors distribution (out-of-distribution, OOD), la composition efficace avec peu d'échantillons, et la modélisation d'environnements structurés. La plupart des recherches se sont concentrées sur le développement de mécanismes non supervisés qui séparent les objets en emplacements discrets dans l'espace de représentation, évalués par la découverte d'objets non supervisée. Cependant, avec les récents modèles de segmentation efficaces en termes d'échantillons, nous pouvons séparer les objets dans l'espace des pixels et les encoder indépendamment. Cela permet d'obtenir des performances remarquables en zéro-shot sur des benchmarks de découverte d'objets OOD, est évolutif pour les modèles de base, et peut gérer un nombre variable d'emplacements sans configuration supplémentaire. Ainsi, l'objectif des méthodes OCL d'obtenir des représentations centrées sur les objets a été largement atteint. Malgré ces progrès, une question clé demeure : Comment la capacité à séparer les objets dans une scène contribue-t-elle aux objectifs plus larges de l'OCL, tels que la généralisation OOD ? Nous abordons cette question en examinant le défi de la généralisation OOD causé par les indices contextuels trompeurs à travers le prisme de l'OCL. Nous proposons une nouvelle sonde sans apprentissage appelée Classification Centrée sur les Objets avec Masques Appliqués (Object-Centric Classification with Applied Masks, OCCAM), démontrant que l'encodage basé sur la segmentation des objets individuels surpasse significativement les méthodes OCL basées sur les emplacements. Cependant, des défis subsistent dans les applications réelles. Nous fournissons une boîte à outils pour la communauté OCL afin d'utiliser des représentations centrées sur les objets évolutives, et nous nous concentrons sur les applications pratiques et les questions fondamentales, telles que la compréhension de la perception des objets dans la cognition humaine. Notre code est disponible {ici}https://github.com/AlexanderRubinstein/OCCAM.
English
Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available https://github.com/AlexanderRubinstein/OCCAM{here}.

Summary

AI-Generated Summary

PDF62April 10, 2025