un^2CLIP: Улучшение способности CLIP к захвату визуальных деталей через инвертирование unCLIP
un^2CLIP: Improving CLIP's Visual Detail Capturing Ability via Inverting unCLIP
May 30, 2025
Авторы: Yinqi Li, Jiahe Zhao, Hong Chang, Ruibing Hou, Shiguang Shan, Xilin Chen
cs.AI
Аннотация
Контрастивное предварительное обучение "Язык-Изображение" (CLIP) стало базовой моделью и нашло применение в различных задачах компьютерного зрения и мультимодальных задачах. Однако последние исследования показывают, что CLIP недостаточно эффективен в распознавании мелких деталей изображений и демонстрирует неоптимальную производительность в задачах плотного предсказания и визуально-центрированных мультимодальных задачах. В связи с этим данная работа сосредоточена на улучшении существующих моделей CLIP с целью максимального захвата визуальных деталей в изображениях. Мы обнаружили, что определенный тип генеративных моделей, unCLIP, предоставляет подходящую основу для достижения нашей цели. В частности, unCLIP обучает генератор изображений, учитывая эмбеддинг изображения CLIP. Другими словами, он инвертирует кодировщик изображений CLIP. По сравнению с дискриминативными моделями, такими как CLIP, генеративные модели лучше справляются с захватом деталей изображений, поскольку они обучаются на изучении распределения данных изображений. Кроме того, условное входное пространство unCLIP согласуется с оригинальным пространством эмбеддингов "текст-изображение" CLIP. Поэтому мы предлагаем инвертировать unCLIP (названный un^2CLIP) для улучшения модели CLIP. Таким образом, улучшенный кодировщик изображений может приобрести способность unCLIP захватывать визуальные детали, сохраняя при этом согласованность с оригинальным текстовым кодировщиком. Мы оцениваем наш улучшенный CLIP на различных задачах, к которым применялся CLIP, включая сложный бенчмарк MMVP-VLM, задачу открытого словарного сегментирования с плотным предсказанием и задачи мультимодальных больших языковых моделей. Эксперименты показывают, что un^2CLIP значительно улучшает оригинальный CLIP и предыдущие методы улучшения CLIP. Код и модели будут доступны по адресу https://github.com/LiYinqi/un2CLIP.
English
Contrastive Language-Image Pre-training (CLIP) has become a foundation model
and has been applied to various vision and multimodal tasks. However, recent
works indicate that CLIP falls short in distinguishing detailed differences in
images and shows suboptimal performance on dense-prediction and vision-centric
multimodal tasks. Therefore, this work focuses on improving existing CLIP
models, aiming to capture as many visual details in images as possible. We find
that a specific type of generative models, unCLIP, provides a suitable
framework for achieving our goal. Specifically, unCLIP trains an image
generator conditioned on the CLIP image embedding. In other words, it inverts
the CLIP image encoder. Compared to discriminative models like CLIP, generative
models are better at capturing image details because they are trained to learn
the data distribution of images. Additionally, the conditional input space of
unCLIP aligns with CLIP's original image-text embedding space. Therefore, we
propose to invert unCLIP (dubbed un^2CLIP) to improve the CLIP model. In this
way, the improved image encoder can gain unCLIP's visual detail capturing
ability while preserving its alignment with the original text encoder
simultaneously. We evaluate our improved CLIP across various tasks to which
CLIP has been applied, including the challenging MMVP-VLM benchmark, the
dense-prediction open-vocabulary segmentation task, and multimodal large
language model tasks. Experiments show that un^2CLIP significantly improves
the original CLIP and previous CLIP improvement methods. Code and models will
be available at https://github.com/LiYinqi/un2CLIP.