Сегментируй и Подпиши Все
Segment and Caption Anything
December 1, 2023
Авторы: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI
Аннотация
Мы предлагаем метод для эффективного оснащения модели Segment Anything Model (SAM) способностью генерировать региональные описания. SAM демонстрирует высокую обобщаемость для сегментации любых объектов, но ограничена в семантическом понимании. Введя легковесный механизм смешивания признаков на основе запросов, мы выравниваем региональные признаки с пространством встраивания языковых моделей для последующей генерации описаний. Поскольку количество обучаемых параметров невелико (обычно порядка десятков миллионов), это требует меньше вычислительных ресурсов, памяти и пропускной способности связи, что делает обучение быстрым и масштабируемым. Для решения проблемы недостатка данных с региональными описаниями мы предлагаем сначала предварительно обучать нашу модель на задачах обнаружения и сегментации объектов. Мы называем этот этап предварительным обучением со слабым контролем, поскольку данные для предварительного обучения содержат только названия категорий, а не полные текстовые описания. Такое предварительное обучение позволяет нам использовать множество общедоступных наборов данных для обнаружения и сегментации объектов. Мы проводим обширные эксперименты, чтобы продемонстрировать превосходство нашего метода и подтвердить каждое принятое решение. Эта работа служит шагом к масштабированию данных с региональными описаниями и открывает пути для исследования эффективных способов дополнения SAM региональной семантикой. Страница проекта, а также связанный с ним код доступны по следующей ссылке: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.