FG-CLIP: Alineación Visual y Textual de Granularidad Fina
FG-CLIP: Fine-Grained Visual and Textual Alignment
May 8, 2025
Autores: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI
Resumen
El preentrenamiento de lenguaje-imagen contrastivo (CLIP) sobresale en tareas multimodales como la recuperación de imágenes-texto y la clasificación de disparo cero, pero tiene dificultades con la comprensión de detalles finos debido a su enfoque en descripciones breves y de grano grueso. Para abordar esto, proponemos Fine-Grained CLIP (FG-CLIP), que mejora la comprensión de detalles finos mediante tres innovaciones clave. Primero, aprovechamos modelos multimodales de gran escala para generar 1.6 mil millones de pares de imágenes con descripciones largas, capturando así detalles semánticos a nivel global. Segundo, construimos un conjunto de datos de alta calidad con 12 millones de imágenes y 40 millones de cuadros delimitadores específicos de regiones, alineados con descripciones detalladas para garantizar representaciones precisas y ricas en contexto. Tercero, incorporamos 10 millones de muestras negativas difíciles de grano fino para mejorar la capacidad del modelo de distinguir diferencias semánticas sutiles. Los métodos de entrenamiento correspondientes se diseñan meticulosamente para estos datos. Experimentos extensivos demuestran que FG-CLIP supera al CLIP original y a otros métodos de vanguardia en diversas tareas posteriores, incluyendo la comprensión de detalles finos, la detección de objetos de vocabulario abierto, la recuperación de imágenes-texto y benchmarks multimodales generales. Estos resultados resaltan la efectividad de FG-CLIP para capturar detalles finos en imágenes y mejorar el rendimiento general del modelo. Los datos, código y modelos relacionados están disponibles en https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks
such as image-text retrieval and zero-shot classification but struggles with
fine-grained understanding due to its focus on coarse-grained short captions.
To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances
fine-grained understanding through three key innovations. First, we leverage
large multimodal models to generate 1.6 billion long caption-image pairs for
capturing global-level semantic details. Second, a high-quality dataset is
constructed with 12 million images and 40 million region-specific bounding
boxes aligned with detailed captions to ensure precise, context-rich
representations. Third, 10 million hard fine-grained negative samples are
incorporated to improve the model's ability to distinguish subtle semantic
differences. Corresponding training methods are meticulously designed for these
data. Extensive experiments demonstrate that FG-CLIP outperforms the original
CLIP and other state-of-the-art methods across various downstream tasks,
including fine-grained understanding, open-vocabulary object detection,
image-text retrieval, and general multimodal benchmarks. These results
highlight FG-CLIP's effectiveness in capturing fine-grained image details and
improving overall model performance. The related data, code, and models are
available at https://github.com/360CVGroup/FG-CLIP.Summary
AI-Generated Summary