Segmenter et Légender Tout
Segment and Caption Anything
December 1, 2023
Auteurs: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI
Résumé
Nous proposons une méthode pour doter efficacement le Segment Anything Model (SAM) de la capacité à générer des légendes régionales. SAM présente une forte généralisabilité pour segmenter n'importe quoi, mais manque de compréhension sémantique. En introduisant un mélangeur de caractéristiques basé sur des requêtes léger, nous alignons les caractéristiques spécifiques à la région avec l'espace d'incorporation des modèles de langage pour la génération ultérieure de légendes. Comme le nombre de paramètres entraînables est faible (généralement de l'ordre de dizaines de millions), cela nécessite moins de calcul, moins d'utilisation de mémoire et moins de bande passante de communication, ce qui se traduit par un entraînement à la fois rapide et évolutif. Pour résoudre le problème de la rareté des données de légendes régionales, nous proposons de pré-entraîner d'abord notre modèle sur des tâches de détection d'objets et de segmentation. Nous appelons cette étape pré-entraînement par supervision faible, car les données de pré-entraînement ne contiennent que des noms de catégories au lieu de descriptions complètes. Le pré-entraînement par supervision faible nous permet d'exploiter de nombreux ensembles de données publics de détection d'objets et de segmentation. Nous menons des expériences approfondies pour démontrer la supériorité de notre méthode et valider chaque choix de conception. Ce travail sert de tremplin pour augmenter les données de légendes régionales et éclaire l'exploration de moyens efficaces pour enrichir SAM avec des sémantiques régionales. La page du projet, ainsi que le code associé, peuvent être consultés via le lien suivant : https://xk-huang.github.io/segment-caption-anything/.
English
We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.