ChatPaper.aiChatPaper

FG-CLIP 2 : Un modèle bilingue d'alignement vision-langage à granularité fine

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
papers.authors: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

papers.abstract

La compréhension fine entre vision et langage nécessite un alignement précis entre le contenu visuel et les descriptions linguistiques, une capacité qui reste limitée dans les modèles actuels, en particulier dans des contextes non anglophones. Bien que des modèles comme CLIP performent bien sur l'alignement global, ils peinent souvent à capturer des détails fins dans les attributs d'objets, les relations spatiales et les expressions linguistiques, avec un support limité pour la compréhension bilingue. Pour relever ces défis, nous introduisons FG-CLIP 2, un modèle bilingue vision-langage conçu pour améliorer l'alignement fin à la fois pour l'anglais et le chinois. Notre approche exploite une supervision fine riche, incluant l'appariement région-texte et la modélisation de longues descriptions, ainsi que plusieurs objectifs discriminatifs. Nous introduisons également la perte de contraste intra-modal textuel (TIC) pour mieux distinguer les descriptions sémantiquement similaires. Entraîné sur un mélange soigneusement sélectionné de données à grande échelle en anglais et en chinois, FG-CLIP 2 atteint des performances bilingues puissantes. Pour permettre une évaluation rigoureuse, nous présentons un nouveau benchmark pour la compréhension multimodale en chinois, incluant la récupération de longues descriptions et la classification par boîtes englobantes. Des expériences approfondies sur 29 jeux de données couvrant 8 tâches montrent que FG-CLIP 2 surpasse les méthodes existantes, obtenant des résultats de pointe dans les deux langues. Nous mettons à disposition le modèle, le code et le benchmark pour faciliter les recherches futures sur l'alignement fin bilingue.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025