ChatPaper.aiChatPaper

FG-CLIP 2: Ein bilinguales Modell zur fein abgestimmten Vision-Sprach-Ausrichtung

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
papers.authors: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

papers.abstract

Fein abgestimmtes Verständnis zwischen visuellen Inhalten und sprachlichen Beschreibungen erfordert eine präzise Ausrichtung, eine Fähigkeit, die in aktuellen Modellen, insbesondere in nicht-englischen Kontexten, noch begrenzt ist. Während Modelle wie CLIP bei der globalen Ausrichtung gut abschneiden, haben sie oft Schwierigkeiten, fein abgestimmte Details in Objektattributen, räumlichen Beziehungen und sprachlichen Ausdrücken zu erfassen, wobei die Unterstützung für bilinguales Verständnis begrenzt ist. Um diese Herausforderungen zu bewältigen, stellen wir FG-CLIP 2 vor, ein bilinguales Vision-Sprache-Modell, das entwickelt wurde, um die fein abgestimmte Ausrichtung für sowohl Englisch als auch Chinesisch voranzutreiben. Unser Ansatz nutzt umfangreiche fein abgestimmte Supervision, einschließlich Region-Text-Abgleich und Langbeschreibungsmodellierung, sowie mehrere diskriminative Ziele. Wir führen weiterhin den Textual Intra-modal Contrastive (TIC) Loss ein, um semantisch ähnliche Beschreibungen besser unterscheiden zu können. Trainiert auf einer sorgfältig kuratierten Mischung aus groß angelegten englischen und chinesischen Daten, erreicht FG-CLIP 2 eine leistungsstarke bilinguale Leistung. Um eine rigorose Bewertung zu ermöglichen, präsentieren wir einen neuen Benchmark für das chinesische multimodale Verständnis, der Langbeschreibungsabruf und Bounding-Box-Klassifikation umfasst. Umfangreiche Experimente auf 29 Datensätzen über 8 Aufgaben hinweg zeigen, dass FG-CLIP 2 bestehende Methoden übertrifft und state-of-the-art Ergebnisse in beiden Sprachen erzielt. Wir veröffentlichen das Modell, den Code und den Benchmark, um zukünftige Forschung zur bilingualen fein abgestimmten Ausrichtung zu fördern.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025