TULIP: В направлении унифицированного предобучения для языка и изображений

Аннотация

Несмотря на недавние успехи контрастивных моделей, работающих с изображениями и текстом, таких как CLIP и SigLIP, эти модели часто испытывают трудности с задачами, ориентированными на визуальное восприятие, которые требуют высокоточной интерпретации изображений, например, подсчет объектов, оценка глубины и распознавание объектов с высокой детализацией. Эти модели, выполняя выравнивание по языку, склонны отдавать приоритет высокоуровневой семантике в ущерб визуальному пониманию, что ослабляет их способность интерпретировать изображения. С другой стороны, модели, ориентированные на визуальное восприятие, отлично справляются с обработкой визуальной информации, но испытывают трудности с пониманием языка, что ограничивает их гибкость в задачах, управляемых языком. В данной работе мы представляем TULIP — открытую замену существующим моделям, подобным CLIP. Наш метод использует генеративное расширение данных, улучшенное контрастивное обучение "изображение-изображение" и "текст-текст", а также регуляризацию через реконструкцию изображений и текста для изучения детализированных визуальных признаков при сохранении глобального семантического выравнивания. Наш подход, масштабируемый до более чем 1 миллиарда параметров, превосходит существующие передовые модели (SOTA) на множестве бенчмарков, устанавливая новый рекорд zero-shot производительности на ImageNet-1K, демонстрируя до 2-кратное улучшение по сравнению с SigLIP на RxRx1 в линейном зондировании для классификации с малым количеством примеров, а также улучшая модели, работающие с визуальными и языковыми данными, достигая более чем 3-кратного увеличения показателей по сравнению с SigLIP на MMVP. Наш код и контрольные точки доступны по адресу https://tulip-berkeley.github.io.

English

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

TULIP: В направлении унифицированного предобучения для языка и изображений

TULIP: Towards Unified Language-Image Pretraining

Аннотация

Support