ChatPaper.aiChatPaper

FG-CLIP: Allineamento Fine-Grained Visivo e Testuale

FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8, 2025
Autori: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI

Abstract

Il Contrastive Language-Image Pre-training (CLIP) eccelle in compiti multimodali come il recupero immagine-testo e la classificazione zero-shot, ma incontra difficoltà nella comprensione fine-granularità a causa del suo focus su didascalie brevi e grossolane. Per affrontare questo problema, proponiamo Fine-Grained CLIP (FG-CLIP), che migliora la comprensione fine-granularità attraverso tre innovazioni chiave. Innanzitutto, sfruttiamo grandi modelli multimodali per generare 1,6 miliardi di coppie didascalia-immagine lunghe, al fine di catturare dettagli semantici a livello globale. In secondo luogo, viene costruito un dataset di alta qualità con 12 milioni di immagini e 40 milioni di bounding box specifici per regione, allineati con didascalie dettagliate, per garantire rappresentazioni precise e ricche di contesto. Terzo, vengono incorporati 10 milioni di campioni negativi hard fine-granularità per migliorare la capacità del modello di distinguere sottili differenze semantiche. I corrispondenti metodi di addestramento sono stati progettati meticolosamente per questi dati. Esperimenti estensivi dimostrano che FG-CLIP supera il CLIP originale e altri metodi all'avanguardia in vari compiti downstream, tra cui la comprensione fine-granularità, la rilevazione di oggetti a vocabolario aperto, il recupero immagine-testo e benchmark multimodali generali. Questi risultati evidenziano l'efficacia di FG-CLIP nel catturare dettagli fini delle immagini e nel migliorare le prestazioni complessive del modello. I dati, il codice e i modelli correlati sono disponibili all'indirizzo https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The related data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.
PDF183May 9, 2025