FG-CLIP: Fein abgestimmte visuelle und textuelle Ausrichtung
FG-CLIP: Fine-Grained Visual and Textual Alignment
May 8, 2025
Autoren: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI
Zusammenfassung
Contrastive Language-Image Pre-training (CLIP) zeichnet sich bei multimodalen Aufgaben wie der Bild-Text-Retrieval und der Zero-Shot-Klassifikation aus, hat jedoch Schwierigkeiten mit dem feinkörnigen Verständnis, da es sich auf grobkörnige, kurze Bildbeschreibungen konzentriert. Um dies zu beheben, schlagen wir Fine-Grained CLIP (FG-CLIP) vor, das das feinkörnige Verständnis durch drei wesentliche Innovationen verbessert. Erstens nutzen wir große multimodale Modelle, um 1,6 Milliarden lange Bildbeschreibungs-Bild-Paare zu generieren, die globale semantische Details erfassen. Zweitens wird ein hochwertiger Datensatz mit 12 Millionen Bildern und 40 Millionen regionsspezifischen Begrenzungsrahmen erstellt, die mit detaillierten Bildbeschreibungen abgeglichen sind, um präzise, kontextreiche Darstellungen zu gewährleisten. Drittens werden 10 Millionen schwierige feinkörnige negative Beispiele integriert, um die Fähigkeit des Modells zu verbessern, subtile semantische Unterschiede zu erkennen. Entsprechende Trainingsmethoden wurden sorgfältig für diese Daten entwickelt. Umfangreiche Experimente zeigen, dass FG-CLIP das ursprüngliche CLIP und andere state-of-the-art Methoden bei verschiedenen Downstream-Aufgaben übertrifft, darunter feinkörniges Verständnis, Open-Vocabulary-Objekterkennung, Bild-Text-Retrieval und allgemeine multimodale Benchmarks. Diese Ergebnisse unterstreichen die Effektivität von FG-CLIP bei der Erfassung feinkörniger Bilddetails und der Verbesserung der Gesamtleistung des Modells. Die zugehörigen Daten, Code und Modelle sind unter https://github.com/360CVGroup/FG-CLIP verfügbar.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks
such as image-text retrieval and zero-shot classification but struggles with
fine-grained understanding due to its focus on coarse-grained short captions.
To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances
fine-grained understanding through three key innovations. First, we leverage
large multimodal models to generate 1.6 billion long caption-image pairs for
capturing global-level semantic details. Second, a high-quality dataset is
constructed with 12 million images and 40 million region-specific bounding
boxes aligned with detailed captions to ensure precise, context-rich
representations. Third, 10 million hard fine-grained negative samples are
incorporated to improve the model's ability to distinguish subtle semantic
differences. Corresponding training methods are meticulously designed for these
data. Extensive experiments demonstrate that FG-CLIP outperforms the original
CLIP and other state-of-the-art methods across various downstream tasks,
including fine-grained understanding, open-vocabulary object detection,
image-text retrieval, and general multimodal benchmarks. These results
highlight FG-CLIP's effectiveness in capturing fine-grained image details and
improving overall model performance. The related data, code, and models are
available at https://github.com/360CVGroup/FG-CLIP.Summary
AI-Generated Summary