¿Hemos terminado con el aprendizaje centrado en objetos?
Are We Done with Object-Centric Learning?
April 9, 2025
Autores: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI
Resumen
El aprendizaje centrado en objetos (Object-Centric Learning, OCL) busca aprender representaciones que codifiquen únicamente un objeto, aislado de otros objetos o señales del fondo en una escena. Este enfoque sustenta diversos objetivos, como la generalización fuera de distribución (out-of-distribution, OOD), la composición eficiente en muestras y el modelado de entornos estructurados. La mayoría de las investigaciones se ha centrado en desarrollar mecanismos no supervisados que separan objetos en espacios discretos dentro del espacio de representación, evaluados mediante descubrimiento no supervisado de objetos. Sin embargo, con los recientes modelos de segmentación eficientes en muestras, podemos separar objetos en el espacio de píxeles y codificarlos de manera independiente. Esto logra un rendimiento notable en pruebas de descubrimiento de objetos OOD con cero ejemplos, es escalable a modelos base y puede manejar un número variable de espacios de manera inmediata. Por lo tanto, el objetivo de los métodos OCL de obtener representaciones centradas en objetos se ha logrado en gran medida. A pesar de este avance, una pregunta clave persiste: ¿Cómo contribuye la capacidad de separar objetos dentro de una escena a objetivos más amplios del OCL, como la generalización OOD? Abordamos esto investigando el desafío de generalización OOD causado por señales espurias del fondo a través de la lente del OCL. Proponemos una sonda novedosa y sin entrenamiento llamada Clasificación Centrada en Objetos con Máscaras Aplicadas (Object-Centric Classification with Applied Masks, OCCAM), demostrando que la codificación basada en segmentación de objetos individuales supera significativamente a los métodos OCL basados en espacios. Sin embargo, persisten desafíos en aplicaciones del mundo real. Proporcionamos una caja de herramientas para que la comunidad OCL utilice representaciones centradas en objetos escalables, y nos enfocamos en aplicaciones prácticas y preguntas fundamentales, como comprender la percepción de objetos en la cognición humana. Nuestro código está disponible {aquí}https://github.com/AlexanderRubinstein/OCCAM.
English
Object-centric learning (OCL) seeks to learn representations that only encode
an object, isolated from other objects or background cues in a scene. This
approach underpins various aims, including out-of-distribution (OOD)
generalization, sample-efficient composition, and modeling of structured
environments. Most research has focused on developing unsupervised mechanisms
that separate objects into discrete slots in the representation space,
evaluated using unsupervised object discovery. However, with recent
sample-efficient segmentation models, we can separate objects in the pixel
space and encode them independently. This achieves remarkable zero-shot
performance on OOD object discovery benchmarks, is scalable to foundation
models, and can handle a variable number of slots out-of-the-box. Hence, the
goal of OCL methods to obtain object-centric representations has been largely
achieved. Despite this progress, a key question remains: How does the ability
to separate objects within a scene contribute to broader OCL objectives, such
as OOD generalization? We address this by investigating the OOD generalization
challenge caused by spurious background cues through the lens of OCL. We
propose a novel, training-free probe called Object-Centric
Classification with Applied Masks (OCCAM), demonstrating that
segmentation-based encoding of individual objects significantly outperforms
slot-based OCL methods. However, challenges in real-world applications remain.
We provide the toolbox for the OCL community to use scalable object-centric
representations, and focus on practical applications and fundamental questions,
such as understanding object perception in human cognition. Our code is
available https://github.com/AlexanderRubinstein/OCCAM{here}.Summary
AI-Generated Summary