ChatPaper.aiChatPaper

FG-CLIP 2: 二言語対応の細粒度視覚-言語アラインメントモデル

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
著者: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

要旨

細粒度の視覚言語理解には、視覚的コンテンツと言語的記述の間の精密なアラインメントが必要であり、これは特に非英語環境において、現在のモデルでは限定的な能力にとどまっている。CLIPのようなモデルはグローバルなアラインメントにおいて優れた性能を発揮するが、物体属性、空間関係、言語表現における細粒度の詳細を捉えることに苦戦し、二言語理解のサポートも限られている。これらの課題に対処するため、我々はFG-CLIP 2を導入する。これは、英語と中国語の両方における細粒度のアラインメントを進化させるために設計された二言語視覚言語モデルである。我々のアプローチは、領域-テキストマッチングや長文キャプションモデリングを含む豊富な細粒度の監督、および複数の識別的目標を活用する。さらに、意味的に類似したキャプションをより良く区別するために、テキスト内モーダルコントラスティブ(TIC)損失を導入する。大規模な英語と中国語のデータを慎重に選別してトレーニングされたFG-CLIP 2は、強力な二言語性能を達成する。厳密な評価を可能にするため、我々は中国語のマルチモーダル理解のための新しいベンチマークを提示し、長文キャプション検索とバウンディングボックス分類を特徴とする。8つのタスクにわたる29のデータセットでの広範な実験により、FG-CLIP 2が既存の手法を上回り、両言語において最先端の結果を達成することが示された。我々は、二言語細粒度アラインメントに関する将来の研究を促進するため、モデル、コード、およびベンチマークを公開する。
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025