ChatPaper.aiChatPaper

FG-CLIP : Alignement Fin des Représentations Visuelles et Textuelles

FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8, 2025
Auteurs: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI

Résumé

Le pré-entraînement contrastif langue-image (CLIP) excelle dans les tâches multimodales telles que la recherche image-texte et la classification zero-shot, mais peine à comprendre les détails fins en raison de son accent sur des légendes courtes et grossières. Pour remédier à cela, nous proposons Fine-Grained CLIP (FG-CLIP), qui améliore la compréhension fine grâce à trois innovations clés. Premièrement, nous exploitons des modèles multimodaux de grande envergure pour générer 1,6 milliard de paires légende-image longues afin de capturer des détails sémantiques au niveau global. Deuxièmement, un ensemble de données de haute qualité est construit avec 12 millions d'images et 40 millions de boîtes englobantes spécifiques à des régions, alignées avec des légendes détaillées pour garantir des représentations précises et riches en contexte. Troisièmement, 10 millions d'échantillons négatifs difficiles et fins sont intégrés pour améliorer la capacité du modèle à distinguer des différences sémantiques subtiles. Des méthodes d'entraînement correspondantes sont soigneusement conçues pour ces données. Des expériences approfondies démontrent que FG-CLIP surpasse le CLIP original et d'autres méthodes de pointe dans diverses tâches en aval, y compris la compréhension fine, la détection d'objets à vocabulaire ouvert, la recherche image-texte et des benchmarks multimodaux généraux. Ces résultats mettent en évidence l'efficacité de FG-CLIP à capturer les détails fins des images et à améliorer les performances globales du modèle. Les données, le code et les modèles associés sont disponibles à l'adresse https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The related data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.

Summary

AI-Generated Summary

PDF101May 9, 2025