FG-CLIP 2: Um Modelo de Alinhamento Visual-Linguístico Bilingue de Alta Granularidade
FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
October 13, 2025
Autores: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI
Resumo
A compreensão detalhada entre visão e linguagem requer um alinhamento preciso entre o conteúdo visual e as descrições linguísticas, uma capacidade que ainda é limitada nos modelos atuais, especialmente em contextos não ingleses. Embora modelos como o CLIP tenham bom desempenho no alinhamento global, eles frequentemente lutam para capturar detalhes refinados em atributos de objetos, relações espaciais e expressões linguísticas, com suporte limitado para compreensão bilíngue. Para enfrentar esses desafios, apresentamos o FG-CLIP 2, um modelo bilíngue de visão e linguagem projetado para avançar o alinhamento detalhado tanto para o inglês quanto para o chinês. Nossa abordagem aproveita supervisão detalhada rica, incluindo correspondência entre regiões e texto e modelagem de legendas longas, juntamente com múltiplos objetivos discriminativos. Além disso, introduzimos a perda de Contraste Intra-modal Textual (TIC) para distinguir melhor legendas semanticamente semelhantes. Treinado em uma mistura cuidadosamente curada de dados em grande escala em inglês e chinês, o FG-CLIP 2 alcança um desempenho bilíngue poderoso. Para permitir uma avaliação rigorosa, apresentamos um novo benchmark para compreensão multimodal em chinês, com foco em recuperação de legendas longas e classificação de caixas delimitadoras. Experimentos extensos em 29 conjuntos de dados abrangendo 8 tarefas mostram que o FG-CLIP 2 supera os métodos existentes, alcançando resultados de ponta em ambos os idiomas. Disponibilizamos o modelo, código e benchmark para facilitar pesquisas futuras sobre alinhamento bilíngue detalhado.
English
Fine-grained vision-language understanding requires precise alignment between
visual content and linguistic descriptions, a capability that remains limited
in current models, particularly in non-English settings. While models like CLIP
perform well on global alignment, they often struggle to capture fine-grained
details in object attributes, spatial relations, and linguistic expressions,
with limited support for bilingual comprehension. To address these challenges,
we introduce FG-CLIP 2, a bilingual vision-language model designed to advance
fine-grained alignment for both English and Chinese. Our approach leverages
rich fine-grained supervision, including region-text matching and long-caption
modeling, alongside multiple discriminative objectives. We further introduce
the Textual Intra-modal Contrastive (TIC) loss to better distinguish
semantically similar captions. Trained on a carefully curated mixture of
large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual
performance. To enable rigorous evaluation, we present a new benchmark for
Chinese multimodal understanding, featuring long-caption retrieval and bounding
box classification. Extensive experiments on 29 datasets across 8 tasks show
that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results
in both languages. We release the model, code, and benchmark to facilitate
future research on bilingual fine-grained alignment.