FG-CLIP 2: Двуязычная модель для точного согласования визуальных и текстовых данных
FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
October 13, 2025
Авторы: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI
Аннотация
Точное понимание визуально-языковых данных требует четкого соответствия между визуальным содержанием и лингвистическими описаниями, что остается ограниченным в современных моделях, особенно в неанглоязычных контекстах. Хотя модели, такие как CLIP, хорошо справляются с глобальным выравниванием, они часто испытывают трудности с захватом деталей на уровне атрибутов объектов, пространственных отношений и лингвистических выражений, а также имеют ограниченную поддержку двуязычного понимания. Для решения этих проблем мы представляем FG-CLIP 2 — двуязычную визуально-языковую модель, разработанную для улучшения точного выравнивания как для английского, так и для китайского языков. Наш подход использует богатое детализированное обучение, включая сопоставление регионов с текстом и моделирование длинных описаний, а также несколько дискриминативных задач. Мы также вводим функцию потерь Textual Intra-modal Contrastive (TIC) для лучшего различения семантически схожих описаний. Обучив модель на тщательно отобранной смеси крупномасштабных данных на английском и китайском языках, FG-CLIP 2 демонстрирует мощную двуязычную производительность. Для обеспечения строгой оценки мы представляем новый эталонный тест для китайского мультимодального понимания, включающий извлечение длинных описаний и классификацию ограничивающих рамок. Многочисленные эксперименты на 29 наборах данных по 8 задачам показывают, что FG-CLIP 2 превосходит существующие методы, достигая наилучших результатов на обоих языках. Мы публикуем модель, код и эталонный тест для содействия будущим исследованиям в области двуязычного точного выравнивания.
English
Fine-grained vision-language understanding requires precise alignment between
visual content and linguistic descriptions, a capability that remains limited
in current models, particularly in non-English settings. While models like CLIP
perform well on global alignment, they often struggle to capture fine-grained
details in object attributes, spatial relations, and linguistic expressions,
with limited support for bilingual comprehension. To address these challenges,
we introduce FG-CLIP 2, a bilingual vision-language model designed to advance
fine-grained alignment for both English and Chinese. Our approach leverages
rich fine-grained supervision, including region-text matching and long-caption
modeling, alongside multiple discriminative objectives. We further introduce
the Textual Intra-modal Contrastive (TIC) loss to better distinguish
semantically similar captions. Trained on a carefully curated mixture of
large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual
performance. To enable rigorous evaluation, we present a new benchmark for
Chinese multimodal understanding, featuring long-caption retrieval and bounding
box classification. Extensive experiments on 29 datasets across 8 tasks show
that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results
in both languages. We release the model, code, and benchmark to facilitate
future research on bilingual fine-grained alignment.