ChatPaper.aiChatPaper

FG-CLIP 2: 이중 언어 세밀 시각-언어 정렬 모델

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
저자: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

초록

세밀한 시각-언어 이해를 위해서는 시각적 콘텐츠와 언어적 설명 간의 정확한 정렬이 필요하며, 이는 특히 비영어 환경에서 현재 모델들의 한계로 남아 있습니다. CLIP과 같은 모델들은 전역적 정렬에서는 우수한 성능을 보이지만, 객체 속성, 공간 관계, 언어적 표현에서의 세부 사항을 포착하는 데 어려움을 겪으며, 이중 언어 이해에 대한 지원도 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 영어와 중국어 모두에서 세밀한 정렬을 발전시키기 위해 설계된 이중 언어 시각-언어 모델인 FG-CLIP 2를 소개합니다. 우리의 접근 방식은 영역-텍스트 매칭과 긴 캡션 모델링을 포함한 풍부한 세밀한 감독과 여러 판별 목적을 활용합니다. 또한, 의미적으로 유사한 캡션을 더 잘 구별하기 위해 텍스트 내 모달 대비(TIC) 손실을 도입했습니다. 대규모 영어 및 중국어 데이터의 신중하게 선별된 혼합물로 훈련된 FG-CLIP 2는 강력한 이중 언어 성능을 달성합니다. 엄격한 평가를 가능하게 하기 위해, 우리는 긴 캡션 검색 및 경계 상자 분류를 특징으로 하는 중국어 다중 모달 이해를 위한 새로운 벤치마크를 제시합니다. 8개 작업에 걸친 29개 데이터셋에서의 광범위한 실험을 통해 FG-CLIP 2가 기존 방법들을 능가하며 두 언어 모두에서 최첨단 결과를 달성함을 보여줍니다. 우리는 이중 언어 세밀한 정렬에 대한 미래 연구를 촉진하기 위해 모델, 코드, 벤치마크를 공개합니다.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025