FG-CLIP: Alinhamento Visual e Textual de Alta Granularidade
FG-CLIP: Fine-Grained Visual and Textual Alignment
May 8, 2025
Autores: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI
Resumo
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) se destaca em tarefas multimodais, como recuperação de imagem-texto e classificação zero-shot, mas enfrenta dificuldades com a compreensão de detalhes finos devido ao seu foco em legendas curtas e de alto nível. Para resolver isso, propomos o CLIP de Detalhes Finos (FG-CLIP), que aprimora a compreensão de detalhes finos por meio de três inovações principais. Primeiro, utilizamos modelos multimodais de grande escala para gerar 1,6 bilhão de pares de imagem-legenda longa, capturando detalhes semânticos em nível global. Segundo, construímos um conjunto de dados de alta qualidade com 12 milhões de imagens e 40 milhões de caixas delimitadoras específicas para regiões, alinhadas com legendas detalhadas, garantindo representações precisas e ricas em contexto. Terceiro, incorporamos 10 milhões de amostras negativas difíceis de detalhes finos para melhorar a capacidade do modelo de distinguir diferenças semânticas sutis. Métodos de treinamento correspondentes foram meticulosamente projetados para esses dados. Experimentos extensivos demonstram que o FG-CLIP supera o CLIP original e outros métodos state-of-the-art em várias tarefas subsequentes, incluindo compreensão de detalhes finos, detecção de objetos de vocabulário aberto, recuperação de imagem-texto e benchmarks multimodais gerais. Esses resultados destacam a eficácia do FG-CLIP em capturar detalhes finos de imagens e melhorar o desempenho geral do modelo. Os dados, códigos e modelos relacionados estão disponíveis em https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks
such as image-text retrieval and zero-shot classification but struggles with
fine-grained understanding due to its focus on coarse-grained short captions.
To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances
fine-grained understanding through three key innovations. First, we leverage
large multimodal models to generate 1.6 billion long caption-image pairs for
capturing global-level semantic details. Second, a high-quality dataset is
constructed with 12 million images and 40 million region-specific bounding
boxes aligned with detailed captions to ensure precise, context-rich
representations. Third, 10 million hard fine-grained negative samples are
incorporated to improve the model's ability to distinguish subtle semantic
differences. Corresponding training methods are meticulously designed for these
data. Extensive experiments demonstrate that FG-CLIP outperforms the original
CLIP and other state-of-the-art methods across various downstream tasks,
including fine-grained understanding, open-vocabulary object detection,
image-text retrieval, and general multimodal benchmarks. These results
highlight FG-CLIP's effectiveness in capturing fine-grained image details and
improving overall model performance. The related data, code, and models are
available at https://github.com/360CVGroup/FG-CLIP.