セグメント・キャプション・エニシング
Segment and Caption Anything
December 1, 2023
著者: Xiaoke Huang, Jianfeng Wang, Yansong Tang, Zheng Zhang, Han Hu, Jiwen Lu, Lijuan Wang, Zicheng Liu
cs.AI
要旨
我々は、Segment Anything Model (SAM)に領域キャプション生成能力を効率的に付与する手法を提案する。SAMは、あらゆるものをセグメント化する強力な汎用性を有する一方で、意味理解の面では限界がある。軽量なクエリベースの特徴量ミキサーを導入することで、領域固有の特徴量と言語モデルの埋め込み空間を整合させ、後続のキャプション生成を可能にする。学習可能なパラメータ数が少ない(通常は数千万のオーダー)ため、計算量、メモリ使用量、通信帯域幅のいずれも低く抑えられ、高速かつスケーラブルな学習が実現される。領域キャプションデータの不足という課題に対処するため、まず物体検出とセグメンテーションタスクでモデルを事前学習することを提案する。このステップを弱教師付き事前学習と呼ぶ。事前学習データにはカテゴリ名のみが含まれ、完全な文の記述は含まれないためである。弱教師付き事前学習により、多くの公開されている物体検出およびセグメンテーションデータセットを活用できる。我々は広範な実験を行い、本手法の優位性を実証し、各設計選択を検証する。本研究は、領域キャプションデータのスケールアップに向けた礎となるものであり、SAMに領域意味を付与する効率的な方法を探る上での指針を示す。プロジェクトページと関連コードは、以下のURLからアクセス可能である: https://xk-huang.github.io/segment-caption-anything/
English
We propose a method to efficiently equip the Segment Anything Model (SAM)
with the ability to generate regional captions. SAM presents strong
generalizability to segment anything while is short for semantic understanding.
By introducing a lightweight query-based feature mixer, we align the
region-specific features with the embedding space of language models for later
caption generation. As the number of trainable parameters is small (typically
in the order of tens of millions), it costs less computation, less memory
usage, and less communication bandwidth, resulting in both fast and scalable
training. To address the scarcity problem of regional caption data, we propose
to first pre-train our model on objection detection and segmentation tasks. We
call this step weak supervision pretraining since the pre-training data only
contains category names instead of full-sentence descriptions. The weak
supervision pretraining allows us to leverage many publicly available object
detection and segmentation datasets. We conduct extensive experiments to
demonstrate the superiority of our method and validate each design choice. This
work serves as a stepping stone towards scaling up regional captioning data and
sheds light on exploring efficient ways to augment SAM with regional semantics.
The project page, along with the associated code, can be accessed via the
following https://xk-huang.github.io/segment-caption-anything/.