FG-CLIP 2 : Un modèle bilingue d'alignement vision-langage à granularité fine
FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
October 13, 2025
papers.authors: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI
papers.abstract
La compréhension fine entre vision et langage nécessite un alignement précis entre le contenu visuel et les descriptions linguistiques, une capacité qui reste limitée dans les modèles actuels, en particulier dans des contextes non anglophones. Bien que des modèles comme CLIP performent bien sur l'alignement global, ils peinent souvent à capturer des détails fins dans les attributs d'objets, les relations spatiales et les expressions linguistiques, avec un support limité pour la compréhension bilingue. Pour relever ces défis, nous introduisons FG-CLIP 2, un modèle bilingue vision-langage conçu pour améliorer l'alignement fin à la fois pour l'anglais et le chinois. Notre approche exploite une supervision fine riche, incluant l'appariement région-texte et la modélisation de longues descriptions, ainsi que plusieurs objectifs discriminatifs. Nous introduisons également la perte de contraste intra-modal textuel (TIC) pour mieux distinguer les descriptions sémantiquement similaires. Entraîné sur un mélange soigneusement sélectionné de données à grande échelle en anglais et en chinois, FG-CLIP 2 atteint des performances bilingues puissantes. Pour permettre une évaluation rigoureuse, nous présentons un nouveau benchmark pour la compréhension multimodale en chinois, incluant la récupération de longues descriptions et la classification par boîtes englobantes. Des expériences approfondies sur 29 jeux de données couvrant 8 tâches montrent que FG-CLIP 2 surpasse les méthodes existantes, obtenant des résultats de pointe dans les deux langues. Nous mettons à disposition le modèle, le code et le benchmark pour faciliter les recherches futures sur l'alignement fin bilingue.
English
Fine-grained vision-language understanding requires precise alignment between
visual content and linguistic descriptions, a capability that remains limited
in current models, particularly in non-English settings. While models like CLIP
perform well on global alignment, they often struggle to capture fine-grained
details in object attributes, spatial relations, and linguistic expressions,
with limited support for bilingual comprehension. To address these challenges,
we introduce FG-CLIP 2, a bilingual vision-language model designed to advance
fine-grained alignment for both English and Chinese. Our approach leverages
rich fine-grained supervision, including region-text matching and long-caption
modeling, alongside multiple discriminative objectives. We further introduce
the Textual Intra-modal Contrastive (TIC) loss to better distinguish
semantically similar captions. Trained on a carefully curated mixture of
large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual
performance. To enable rigorous evaluation, we present a new benchmark for
Chinese multimodal understanding, featuring long-caption retrieval and bounding
box classification. Extensive experiments on 29 datasets across 8 tasks show
that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results
in both languages. We release the model, code, and benchmark to facilitate
future research on bilingual fine-grained alignment.