FG-CLIP: Fijnmazige Visuele en Tekstuele Afstemming
FG-CLIP: Fine-Grained Visual and Textual Alignment
May 8, 2025
Auteurs: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI
Samenvatting
Contrastive Language-Image Pre-training (CLIP) blinkt uit in multimodale taken
zoals beeld-tekst retrieval en zero-shot classificatie, maar heeft moeite met
fijnmazig begrip vanwege de focus op grofmazige korte bijschriften. Om dit aan
te pakken, stellen we Fine-Grained CLIP (FG-CLIP) voor, dat fijnmazig begrip
verbetert door drie belangrijke innovaties. Ten eerste benutten we grote
multimodale modellen om 1,6 miljard lange bijschrift-beeldparen te genereren
voor het vastleggen van semantische details op globaal niveau. Ten tweede wordt
een hoogwaardige dataset geconstrueerd met 12 miljoen afbeeldingen en 40 miljoen
regiospecifieke begrenzingsvakken die zijn uitgelijnd met gedetailleerde
bijschriften, om precieze, contextrijke representaties te garanderen. Ten derde
worden 10 miljoen moeilijke fijnmazige negatieve voorbeelden opgenomen om het
vermogen van het model om subtiele semantische verschillen te onderscheiden te
verbeteren. Bijbehorende trainingsmethoden zijn zorgvuldig ontworpen voor deze
data. Uitgebreide experimenten tonen aan dat FG-CLIP het originele CLIP en
andere state-of-the-art methoden overtreft in verschillende downstream taken,
waaronder fijnmazig begrip, open-vocabulary objectdetectie, beeld-tekst
retrieval en algemene multimodale benchmarks. Deze resultaten benadrukken de
effectiviteit van FG-CLIP in het vastleggen van fijnmazige beelddetails en het
verbeteren van de algehele modelprestaties. De gerelateerde data, code en
modellen zijn beschikbaar op https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks
such as image-text retrieval and zero-shot classification but struggles with
fine-grained understanding due to its focus on coarse-grained short captions.
To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances
fine-grained understanding through three key innovations. First, we leverage
large multimodal models to generate 1.6 billion long caption-image pairs for
capturing global-level semantic details. Second, a high-quality dataset is
constructed with 12 million images and 40 million region-specific bounding
boxes aligned with detailed captions to ensure precise, context-rich
representations. Third, 10 million hard fine-grained negative samples are
incorporated to improve the model's ability to distinguish subtle semantic
differences. Corresponding training methods are meticulously designed for these
data. Extensive experiments demonstrate that FG-CLIP outperforms the original
CLIP and other state-of-the-art methods across various downstream tasks,
including fine-grained understanding, open-vocabulary object detection,
image-text retrieval, and general multimodal benchmarks. These results
highlight FG-CLIP's effectiveness in capturing fine-grained image details and
improving overall model performance. The related data, code, and models are
available at https://github.com/360CVGroup/FG-CLIP.