FG-CLIP: 細粒度の視覚的およびテキスト的アラインメント
FG-CLIP: Fine-Grained Visual and Textual Alignment
May 8, 2025
著者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI
要旨
Contrastive Language-Image Pre-training (CLIP)は、画像-テキスト検索やゼロショット分類などのマルチモーダルタスクにおいて優れた性能を発揮しますが、粗粒度の短いキャプションに焦点を当てているため、細粒度の理解には課題があります。この問題に対処するため、我々はFine-Grained CLIP (FG-CLIP)を提案します。FG-CLIPは、3つの主要な革新を通じて細粒度の理解を強化します。まず、大規模マルチモーダルモデルを活用して、グローバルレベルの意味的詳細を捉えるために16億の長いキャプション-画像ペアを生成します。次に、1200万の画像と4000万の領域固有のバウンディングボックスを詳細なキャプションと整合させた高品質なデータセットを構築し、正確で文脈豊かな表現を確保します。さらに、1000万の難しい細粒度のネガティブサンプルを組み込み、モデルが微妙な意味的差異を区別する能力を向上させます。これらのデータに対応するためのトレーニング方法も綿密に設計されています。大規模な実験により、FG-CLIPが元のCLIPや他の最先端の手法を、細粒度理解、オープン語彙物体検出、画像-テキスト検索、一般的なマルチモーダルベンチマークなど、さまざまな下流タスクにおいて凌駕することが示されています。これらの結果は、FG-CLIPが細粒度の画像詳細を捉え、全体的なモデル性能を向上させる効果を強調しています。関連するデータ、コード、モデルはhttps://github.com/360CVGroup/FG-CLIPで公開されています。
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks
such as image-text retrieval and zero-shot classification but struggles with
fine-grained understanding due to its focus on coarse-grained short captions.
To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances
fine-grained understanding through three key innovations. First, we leverage
large multimodal models to generate 1.6 billion long caption-image pairs for
capturing global-level semantic details. Second, a high-quality dataset is
constructed with 12 million images and 40 million region-specific bounding
boxes aligned with detailed captions to ensure precise, context-rich
representations. Third, 10 million hard fine-grained negative samples are
incorporated to improve the model's ability to distinguish subtle semantic
differences. Corresponding training methods are meticulously designed for these
data. Extensive experiments demonstrate that FG-CLIP outperforms the original
CLIP and other state-of-the-art methods across various downstream tasks,
including fine-grained understanding, open-vocabulary object detection,
image-text retrieval, and general multimodal benchmarks. These results
highlight FG-CLIP's effectiveness in capturing fine-grained image details and
improving overall model performance. The related data, code, and models are
available at https://github.com/360CVGroup/FG-CLIP.Summary
AI-Generated Summary