¿Hemos terminado con el aprendizaje centrado en objetos?

Resumen

El aprendizaje centrado en objetos (Object-Centric Learning, OCL) busca aprender representaciones que codifiquen únicamente un objeto, aislado de otros objetos o señales del fondo en una escena. Este enfoque sustenta diversos objetivos, como la generalización fuera de distribución (out-of-distribution, OOD), la composición eficiente en muestras y el modelado de entornos estructurados. La mayoría de las investigaciones se ha centrado en desarrollar mecanismos no supervisados que separan objetos en espacios discretos dentro del espacio de representación, evaluados mediante descubrimiento no supervisado de objetos. Sin embargo, con los recientes modelos de segmentación eficientes en muestras, podemos separar objetos en el espacio de píxeles y codificarlos de manera independiente. Esto logra un rendimiento notable en pruebas de descubrimiento de objetos OOD con cero ejemplos, es escalable a modelos base y puede manejar un número variable de espacios de manera inmediata. Por lo tanto, el objetivo de los métodos OCL de obtener representaciones centradas en objetos se ha logrado en gran medida. A pesar de este avance, una pregunta clave persiste: ¿Cómo contribuye la capacidad de separar objetos dentro de una escena a objetivos más amplios del OCL, como la generalización OOD? Abordamos esto investigando el desafío de generalización OOD causado por señales espurias del fondo a través de la lente del OCL. Proponemos una sonda novedosa y sin entrenamiento llamada Clasificación Centrada en Objetos con Máscaras Aplicadas (Object-Centric Classification with Applied Masks, OCCAM), demostrando que la codificación basada en segmentación de objetos individuales supera significativamente a los métodos OCL basados en espacios. Sin embargo, persisten desafíos en aplicaciones del mundo real. Proporcionamos una caja de herramientas para que la comunidad OCL utilice representaciones centradas en objetos escalables, y nos enfocamos en aplicaciones prácticas y preguntas fundamentales, como comprender la percepción de objetos en la cognición humana. Nuestro código está disponible {aquí}https://github.com/AlexanderRubinstein/OCCAM.

English

Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available https://github.com/AlexanderRubinstein/OCCAM{here}.

¿Hemos terminado con el aprendizaje centrado en objetos?

Are We Done with Object-Centric Learning?

Resumen

Support