Сегментируй и Подпиши Все

Аннотация

Мы предлагаем метод для эффективного оснащения модели Segment Anything Model (SAM) способностью генерировать региональные описания. SAM демонстрирует высокую обобщаемость для сегментации любых объектов, но ограничена в семантическом понимании. Введя легковесный механизм смешивания признаков на основе запросов, мы выравниваем региональные признаки с пространством встраивания языковых моделей для последующей генерации описаний. Поскольку количество обучаемых параметров невелико (обычно порядка десятков миллионов), это требует меньше вычислительных ресурсов, памяти и пропускной способности связи, что делает обучение быстрым и масштабируемым. Для решения проблемы недостатка данных с региональными описаниями мы предлагаем сначала предварительно обучать нашу модель на задачах обнаружения и сегментации объектов. Мы называем этот этап предварительным обучением со слабым контролем, поскольку данные для предварительного обучения содержат только названия категорий, а не полные текстовые описания. Такое предварительное обучение позволяет нам использовать множество общедоступных наборов данных для обнаружения и сегментации объектов. Мы проводим обширные эксперименты, чтобы продемонстрировать превосходство нашего метода и подтвердить каждое принятое решение. Эта работа служит шагом к масштабированию данных с региональными описаниями и открывает пути для исследования эффективных способов дополнения SAM региональной семантикой. Страница проекта, а также связанный с ним код доступны по следующей ссылке: https://xk-huang.github.io/segment-caption-anything/.

English

We propose a method to efficiently equip the Segment Anything Model (SAM) with the ability to generate regional captions. SAM presents strong generalizability to segment anything while is short for semantic understanding. By introducing a lightweight query-based feature mixer, we align the region-specific features with the embedding space of language models for later caption generation. As the number of trainable parameters is small (typically in the order of tens of millions), it costs less computation, less memory usage, and less communication bandwidth, resulting in both fast and scalable training. To address the scarcity problem of regional caption data, we propose to first pre-train our model on objection detection and segmentation tasks. We call this step weak supervision pretraining since the pre-training data only contains category names instead of full-sentence descriptions. The weak supervision pretraining allows us to leverage many publicly available object detection and segmentation datasets. We conduct extensive experiments to demonstrate the superiority of our method and validate each design choice. This work serves as a stepping stone towards scaling up regional captioning data and sheds light on exploring efficient ways to augment SAM with regional semantics. The project page, along with the associated code, can be accessed via the following https://xk-huang.github.io/segment-caption-anything/.

Сегментируй и Подпиши Все

Segment and Caption Anything

Аннотация

Support