ChatPaper.aiChatPaper

FG-CLIP: Fijnmazige Visuele en Tekstuele Afstemming

FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8, 2025
Auteurs: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI

Samenvatting

Contrastive Language-Image Pre-training (CLIP) blinkt uit in multimodale taken zoals beeld-tekst retrieval en zero-shot classificatie, maar heeft moeite met fijnmazig begrip vanwege de focus op grofmazige korte bijschriften. Om dit aan te pakken, stellen we Fine-Grained CLIP (FG-CLIP) voor, dat fijnmazig begrip verbetert door drie belangrijke innovaties. Ten eerste benutten we grote multimodale modellen om 1,6 miljard lange bijschrift-beeldparen te genereren voor het vastleggen van semantische details op globaal niveau. Ten tweede wordt een hoogwaardige dataset geconstrueerd met 12 miljoen afbeeldingen en 40 miljoen regiospecifieke begrenzingsvakken die zijn uitgelijnd met gedetailleerde bijschriften, om precieze, contextrijke representaties te garanderen. Ten derde worden 10 miljoen moeilijke fijnmazige negatieve voorbeelden opgenomen om het vermogen van het model om subtiele semantische verschillen te onderscheiden te verbeteren. Bijbehorende trainingsmethoden zijn zorgvuldig ontworpen voor deze data. Uitgebreide experimenten tonen aan dat FG-CLIP het originele CLIP en andere state-of-the-art methoden overtreft in verschillende downstream taken, waaronder fijnmazig begrip, open-vocabulary objectdetectie, beeld-tekst retrieval en algemene multimodale benchmarks. Deze resultaten benadrukken de effectiviteit van FG-CLIP in het vastleggen van fijnmazige beelddetails en het verbeteren van de algehele modelprestaties. De gerelateerde data, code en modellen zijn beschikbaar op https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The related data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.
PDF173May 9, 2025