ChatPaper.aiChatPaper

FG-CLIP 2: Een tweetalig fijnmazig visueel-taalkundig uitlijningsmodel

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
Auteurs: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

Samenvatting

Gedetailleerd begrip van visuele en taalinhoud vereist een nauwkeurige afstemming tussen visuele content en linguïstische beschrijvingen, een vaardigheid die in huidige modellen nog beperkt is, vooral in niet-Engelse contexten. Hoewel modellen zoals CLIP goed presteren op het gebied van globale afstemming, hebben ze vaak moeite met het vastleggen van gedetailleerde details in objectattributen, ruimtelijke relaties en linguïstische uitdrukkingen, met beperkte ondersteuning voor tweetalig begrip. Om deze uitdagingen aan te pakken, introduceren we FG-CLIP 2, een tweetalig visueel-taalmodel dat is ontworpen om gedetailleerde afstemming voor zowel Engels als Chinees te bevorderen. Onze aanpak maakt gebruik van rijke gedetailleerde supervisie, waaronder regio-tekst matching en lange-beschrijving modellering, naast meerdere discriminerende doelstellingen. We introduceren verder het Textuele Intra-modale Contrastieve (TIC) verlies om semantisch vergelijkbare beschrijvingen beter te onderscheiden. Getraind op een zorgvuldig samengestelde mix van grootschalige Engelse en Chinese data, bereikt FG-CLIP 2 krachtige tweetalige prestaties. Om een rigoureuze evaluatie mogelijk te maken, presenteren we een nieuwe benchmark voor Chinees multimodaal begrip, met lange-beschrijving retrieval en bounding box classificatie. Uitgebreide experimenten op 29 datasets over 8 taken laten zien dat FG-CLIP 2 bestaande methoden overtreft en state-of-the-art resultaten behaalt in beide talen. We maken het model, de code en de benchmark beschikbaar om toekomstig onderzoek naar tweetalige gedetailleerde afstemming te faciliteren.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025