ChatPaper.aiChatPaper

FG-CLIP: Точное согласование визуальных и текстовых данных на детальном уровне

FG-CLIP: Fine-Grained Visual and Textual Alignment

May 8, 2025
Авторы: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Gengshen Zhang, Dawei Leng, Yuhui Yin
cs.AI

Аннотация

Контрастивное предварительное обучение для языка и изображений (CLIP) демонстрирует выдающиеся результаты в мультимодальных задачах, таких как поиск по изображениям и текстам и классификация с нулевым обучением, однако испытывает трудности с детальным пониманием из-за ориентации на грубые короткие описания. Для решения этой проблемы мы предлагаем Fine-Grained CLIP (FG-CLIP), который улучшает детальное понимание за счет трех ключевых инноваций. Во-первых, мы используем крупные мультимодальные модели для генерации 1,6 миллиардов пар длинных описаний и изображений, что позволяет захватывать семантические детали на глобальном уровне. Во-вторых, создается высококачественный набор данных, включающий 12 миллионов изображений и 40 миллионов регион-специфичных ограничивающих рамок, согласованных с детальными описаниями, чтобы обеспечить точные и контекстно-богатые представления. В-третьих, добавляется 10 миллионов сложных негативных примеров для улучшения способности модели различать тонкие семантические различия. Соответствующие методы обучения тщательно разработаны для этих данных. Многочисленные эксперименты показывают, что FG-CLIP превосходит оригинальный CLIP и другие передовые методы в различных задачах, включая детальное понимание, обнаружение объектов с открытым словарем, поиск по изображениям и текстам, а также общие мультимодальные тесты. Эти результаты подчеркивают эффективность FG-CLIP в захвате деталей изображений и улучшении общей производительности модели. Соответствующие данные, код и модели доступны по адресу https://github.com/360CVGroup/FG-CLIP.
English
Contrastive Language-Image Pre-training (CLIP) excels in multimodal tasks such as image-text retrieval and zero-shot classification but struggles with fine-grained understanding due to its focus on coarse-grained short captions. To address this, we propose Fine-Grained CLIP (FG-CLIP), which enhances fine-grained understanding through three key innovations. First, we leverage large multimodal models to generate 1.6 billion long caption-image pairs for capturing global-level semantic details. Second, a high-quality dataset is constructed with 12 million images and 40 million region-specific bounding boxes aligned with detailed captions to ensure precise, context-rich representations. Third, 10 million hard fine-grained negative samples are incorporated to improve the model's ability to distinguish subtle semantic differences. Corresponding training methods are meticulously designed for these data. Extensive experiments demonstrate that FG-CLIP outperforms the original CLIP and other state-of-the-art methods across various downstream tasks, including fine-grained understanding, open-vocabulary object detection, image-text retrieval, and general multimodal benchmarks. These results highlight FG-CLIP's effectiveness in capturing fine-grained image details and improving overall model performance. The related data, code, and models are available at https://github.com/360CVGroup/FG-CLIP.

Summary

AI-Generated Summary

PDF101May 9, 2025