ChatPaper.aiChatPaper

Estamos Concluídos com o Aprendizado Centrado em Objetos?

Are We Done with Object-Centric Learning?

April 9, 2025
Autores: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI

Resumo

A aprendizagem centrada em objetos (Object-Centric Learning, OCL) busca aprender representações que codificam apenas um objeto, isolado de outros objetos ou pistas de fundo em uma cena. Essa abordagem sustenta diversos objetivos, incluindo generalização fora da distribuição (out-of-distribution, OOD), composição eficiente em termos de amostras e modelagem de ambientes estruturados. A maior parte da pesquisa tem se concentrado no desenvolvimento de mecanismos não supervisionados que separam objetos em espaços discretos no espaço de representação, avaliados por meio da descoberta não supervisionada de objetos. No entanto, com modelos recentes de segmentação eficientes em termos de amostras, podemos separar objetos no espaço de pixels e codificá-los de forma independente. Isso alcança um desempenho notável em benchmarks de descoberta de objetos OOD em zero-shot, é escalável para modelos de base (foundation models) e pode lidar com um número variável de espaços de forma imediata. Assim, o objetivo dos métodos OCL de obter representações centradas em objetos foi amplamente alcançado. Apesar desse progresso, uma questão fundamental permanece: Como a capacidade de separar objetos dentro de uma cena contribui para objetivos mais amplos da OCL, como a generalização OOD? Abordamos essa questão investigando o desafio de generalização OOD causado por pistas de fundo espúrias através da lente da OCL. Propomos uma nova sonda livre de treinamento chamada Classificação Centrada em Objetos com Máscaras Aplicadas (Object-Centric Classification with Applied Masks, OCCAM), demonstrando que a codificação baseada em segmentação de objetos individuais supera significativamente os métodos OCL baseados em espaços discretos. No entanto, desafios em aplicações do mundo real permanecem. Fornecemos uma caixa de ferramentas para a comunidade OCL usar representações centradas em objetos escaláveis, e focamos em aplicações práticas e questões fundamentais, como entender a percepção de objetos na cognição humana. Nosso código está disponível {aqui}(https://github.com/AlexanderRubinstein/OCCAM).
English
Object-centric learning (OCL) seeks to learn representations that only encode an object, isolated from other objects or background cues in a scene. This approach underpins various aims, including out-of-distribution (OOD) generalization, sample-efficient composition, and modeling of structured environments. Most research has focused on developing unsupervised mechanisms that separate objects into discrete slots in the representation space, evaluated using unsupervised object discovery. However, with recent sample-efficient segmentation models, we can separate objects in the pixel space and encode them independently. This achieves remarkable zero-shot performance on OOD object discovery benchmarks, is scalable to foundation models, and can handle a variable number of slots out-of-the-box. Hence, the goal of OCL methods to obtain object-centric representations has been largely achieved. Despite this progress, a key question remains: How does the ability to separate objects within a scene contribute to broader OCL objectives, such as OOD generalization? We address this by investigating the OOD generalization challenge caused by spurious background cues through the lens of OCL. We propose a novel, training-free probe called Object-Centric Classification with Applied Masks (OCCAM), demonstrating that segmentation-based encoding of individual objects significantly outperforms slot-based OCL methods. However, challenges in real-world applications remain. We provide the toolbox for the OCL community to use scalable object-centric representations, and focus on practical applications and fundamental questions, such as understanding object perception in human cognition. Our code is available https://github.com/AlexanderRubinstein/OCCAM{here}.

Summary

AI-Generated Summary

PDF62April 10, 2025