Закончили ли мы с объектно-ориентированным обучением?
Are We Done with Object-Centric Learning?
April 9, 2025
Авторы: Alexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh
cs.AI
Аннотация
Обучение с фокусом на объектах (Object-centric learning, OCL) стремится к изучению представлений, которые кодируют только объект, изолированный от других объектов или фоновых элементов в сцене. Этот подход лежит в основе различных целей, включая обобщение за пределами распределения (out-of-distribution, OOD), эффективное композиционирование с использованием малого числа примеров и моделирование структурированных сред. Большинство исследований сосредоточено на разработке неконтролируемых механизмов, которые разделяют объекты на дискретные слоты в пространстве представлений, оценивая их с помощью неконтролируемого обнаружения объектов. Однако с появлением современных моделей сегментации, эффективных по количеству примеров, мы можем разделять объекты в пространстве пикселей и кодировать их независимо. Это позволяет достичь впечатляющей производительности на тестах OOD для обнаружения объектов, масштабируется до базовых моделей и может работать с переменным числом слотов "из коробки". Таким образом, цель методов OCL — получение объектно-ориентированных представлений — в значительной степени достигнута. Несмотря на этот прогресс, ключевой вопрос остается: как способность разделять объекты в сцене способствует более широким целям OCL, таким как обобщение OOD? Мы исследуем эту проблему, рассматривая вызов OOD, вызванный ложными фоновыми элементами, через призму OCL. Мы предлагаем новый, не требующий обучения метод под названием "Классификация с фокусом на объектах с применением масок" (Object-Centric Classification with Applied Masks, OCCAM), демонстрируя, что кодирование отдельных объектов на основе сегментации значительно превосходит методы OCL, основанные на слотах. Однако в реальных приложениях остаются вызовы. Мы предоставляем инструментарий для сообщества OCL, позволяющий использовать масштабируемые объектно-ориентированные представления, и сосредотачиваемся на практических приложениях и фундаментальных вопросах, таких как понимание восприятия объектов в человеческом познании. Наш код доступен {здесь}(https://github.com/AlexanderRubinstein/OCCAM).
English
Object-centric learning (OCL) seeks to learn representations that only encode
an object, isolated from other objects or background cues in a scene. This
approach underpins various aims, including out-of-distribution (OOD)
generalization, sample-efficient composition, and modeling of structured
environments. Most research has focused on developing unsupervised mechanisms
that separate objects into discrete slots in the representation space,
evaluated using unsupervised object discovery. However, with recent
sample-efficient segmentation models, we can separate objects in the pixel
space and encode them independently. This achieves remarkable zero-shot
performance on OOD object discovery benchmarks, is scalable to foundation
models, and can handle a variable number of slots out-of-the-box. Hence, the
goal of OCL methods to obtain object-centric representations has been largely
achieved. Despite this progress, a key question remains: How does the ability
to separate objects within a scene contribute to broader OCL objectives, such
as OOD generalization? We address this by investigating the OOD generalization
challenge caused by spurious background cues through the lens of OCL. We
propose a novel, training-free probe called Object-Centric
Classification with Applied Masks (OCCAM), demonstrating that
segmentation-based encoding of individual objects significantly outperforms
slot-based OCL methods. However, challenges in real-world applications remain.
We provide the toolbox for the OCL community to use scalable object-centric
representations, and focus on practical applications and fundamental questions,
such as understanding object perception in human cognition. Our code is
available https://github.com/AlexanderRubinstein/OCCAM{here}.Summary
AI-Generated Summary