FG-CLIP 2: Um Modelo de Alinhamento Visual-Linguístico Bilingue de Alta Granularidade

Resumo

A compreensão detalhada entre visão e linguagem requer um alinhamento preciso entre o conteúdo visual e as descrições linguísticas, uma capacidade que ainda é limitada nos modelos atuais, especialmente em contextos não ingleses. Embora modelos como o CLIP tenham bom desempenho no alinhamento global, eles frequentemente lutam para capturar detalhes refinados em atributos de objetos, relações espaciais e expressões linguísticas, com suporte limitado para compreensão bilíngue. Para enfrentar esses desafios, apresentamos o FG-CLIP 2, um modelo bilíngue de visão e linguagem projetado para avançar o alinhamento detalhado tanto para o inglês quanto para o chinês. Nossa abordagem aproveita supervisão detalhada rica, incluindo correspondência entre regiões e texto e modelagem de legendas longas, juntamente com múltiplos objetivos discriminativos. Além disso, introduzimos a perda de Contraste Intra-modal Textual (TIC) para distinguir melhor legendas semanticamente semelhantes. Treinado em uma mistura cuidadosamente curada de dados em grande escala em inglês e chinês, o FG-CLIP 2 alcança um desempenho bilíngue poderoso. Para permitir uma avaliação rigorosa, apresentamos um novo benchmark para compreensão multimodal em chinês, com foco em recuperação de legendas longas e classificação de caixas delimitadoras. Experimentos extensos em 29 conjuntos de dados abrangendo 8 tarefas mostram que o FG-CLIP 2 supera os métodos existentes, alcançando resultados de ponta em ambos os idiomas. Disponibilizamos o modelo, código e benchmark para facilitar pesquisas futuras sobre alinhamento bilíngue detalhado.

English

Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.

FG-CLIP 2: Um Modelo de Alinhamento Visual-Linguístico Bilingue de Alta Granularidade

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

Resumo

Support