Segmenta e Descrivi Qualsiasi Cosa
Segment and Caption Anything
December 1, 2023
Autori: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI
Abstract
Proponiamo un metodo per dotare in modo efficiente il Segment Anything Model (SAM) della capacità di generare didascalie regionali. SAM presenta una forte generalizzabilità nel segmentare qualsiasi cosa, ma è carente nella comprensione semantica. Introducendo un miscelatore di feature basato su query leggero, allineiamo le feature specifiche della regione con lo spazio di embedding dei modelli linguistici per la successiva generazione di didascalie. Poiché il numero di parametri addestrabili è ridotto (tipicamente nell'ordine delle decine di milioni), ciò comporta un minor costo computazionale, un minor utilizzo di memoria e una minore larghezza di banda di comunicazione, risultando in un addestramento sia veloce che scalabile. Per affrontare il problema della scarsità di dati di didascalie regionali, proponiamo di pre-addestrare prima il nostro modello su compiti di rilevamento e segmentazione di oggetti. Chiamiamo questo passaggio pre-addestramento con supervisione debole poiché i dati di pre-addestramento contengono solo nomi di categorie invece di descrizioni complete. Il pre-addestramento con supervisione debole ci consente di sfruttare molti dataset pubblicamente disponibili per il rilevamento e la segmentazione di oggetti. Condividiamo esperimenti estesi per dimostrare la superiorità del nostro metodo e convalidare ogni scelta progettuale. Questo lavoro rappresenta un passo avanti verso l'ampliamento dei dati di didascalie regionali e getta luce sull'esplorazione di modi efficienti per arricchire SAM con semantica regionale. La pagina del progetto, insieme al codice associato, può essere consultata al seguente link: https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.