FG-CLIP: Alineación Visual y Textual de Granularidad Fina

Resumen

El preentrenamiento de lenguaje-imagen contrastivo (CLIP) sobresale en tareas multimodales como la recuperación de imágenes-texto y la clasificación de disparo cero, pero tiene dificultades con la comprensión de detalles finos debido a su enfoque en descripciones breves y de grano grueso. Para abordar esto, proponemos Fine-Grained CLIP (FG-CLIP), que mejora la comprensión de detalles finos mediante tres innovaciones clave. Primero, aprovechamos modelos multimodales de gran escala para generar 1.6 mil millones de pares de imágenes con descripciones largas, capturando así detalles semánticos a nivel global. Segundo, construimos un conjunto de datos de alta calidad con 12 millones de imágenes y 40 millones de cuadros delimitadores específicos de regiones, alineados con descripciones detalladas para garantizar representaciones precisas y ricas en contexto. Tercero, incorporamos 10 millones de muestras negativas difíciles de grano fino para mejorar la capacidad del modelo de distinguir diferencias semánticas sutiles. Los métodos de entrenamiento correspondientes se diseñan meticulosamente para estos datos. Experimentos extensivos demuestran que FG-CLIP supera al CLIP original y a otros métodos de vanguardia en diversas tareas posteriores, incluyendo la comprensión de detalles finos, la detección de objetos de vocabulario abierto, la recuperación de imágenes-texto y benchmarks multimodales generales. Estos resultados resaltan la efectividad de FG-CLIP para capturar detalles finos en imágenes y mejorar el rendimiento general del modelo. Los datos, código y modelos relacionados están disponibles en https://github.com/360CVGroup/FG-CLIP.

English

Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The related data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.

FG-CLIP: Alineación Visual y Textual de Granularidad Fina

FG-CLIP: Fine-Grained Visual and Textual Alignment

Resumen

Support