ChatPaper.aiChatPaper

FG-CLIP 2: Un modello bilingue per l'allineamento fine-grana tra visione e linguaggio

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
Autori: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

Abstract

La comprensione fine-granulare tra visione e linguaggio richiede un allineamento preciso tra contenuti visivi e descrizioni linguistiche, una capacità che rimane limitata nei modelli attuali, specialmente in contesti non inglesi. Sebbene modelli come CLIP performino bene sull'allineamento globale, spesso faticano a catturare dettagli fine-granulari negli attributi degli oggetti, nelle relazioni spaziali e nelle espressioni linguistiche, con un supporto limitato per la comprensione bilingue. Per affrontare queste sfide, introduciamo FG-CLIP 2, un modello bilingue visione-linguaggio progettato per avanzare l'allineamento fine-granulare sia per l'inglese che per il cinese. Il nostro approccio sfrutta una supervisione fine-granulare ricca, inclusa la corrispondenza regione-testo e la modellazione di didascalie lunghe, insieme a molteplici obiettivi discriminativi. Introduciamo inoltre la perdita di Contrasto Intra-modale Testuale (TIC) per distinguere meglio didascalie semanticamente simili. Addestrato su una miscela accuratamente curata di dati su larga scala in inglese e cinese, FG-CLIP 2 raggiunge prestazioni bilingue potenti. Per abilitare una valutazione rigorosa, presentiamo un nuovo benchmark per la comprensione multimodale cinese, caratterizzato da recupero di didascalie lunghe e classificazione di bounding box. Esperimenti estesi su 29 dataset attraverso 8 task mostrano che FG-CLIP 2 supera i metodi esistenti, raggiungendo risultati all'avanguardia in entrambe le lingue. Rilasciamo il modello, il codice e il benchmark per facilitare future ricerche sull'allineamento fine-granulare bilingue.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025