TULIP: В направлении унифицированного предобучения для языка и изображений
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Авторы: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Аннотация
Несмотря на недавние успехи контрастивных моделей, работающих с изображениями и текстом, таких как CLIP и SigLIP, эти модели часто испытывают трудности с задачами, ориентированными на визуальное восприятие, которые требуют высокоточной интерпретации изображений, например, подсчет объектов, оценка глубины и распознавание объектов с высокой детализацией. Эти модели, выполняя выравнивание по языку, склонны отдавать приоритет высокоуровневой семантике в ущерб визуальному пониманию, что ослабляет их способность интерпретировать изображения. С другой стороны, модели, ориентированные на визуальное восприятие, отлично справляются с обработкой визуальной информации, но испытывают трудности с пониманием языка, что ограничивает их гибкость в задачах, управляемых языком. В данной работе мы представляем TULIP — открытую замену существующим моделям, подобным CLIP. Наш метод использует генеративное расширение данных, улучшенное контрастивное обучение "изображение-изображение" и "текст-текст", а также регуляризацию через реконструкцию изображений и текста для изучения детализированных визуальных признаков при сохранении глобального семантического выравнивания. Наш подход, масштабируемый до более чем 1 миллиарда параметров, превосходит существующие передовые модели (SOTA) на множестве бенчмарков, устанавливая новый рекорд zero-shot производительности на ImageNet-1K, демонстрируя до 2-кратное улучшение по сравнению с SigLIP на RxRx1 в линейном зондировании для классификации с малым количеством примеров, а также улучшая модели, работающие с визуальными и языковыми данными, достигая более чем 3-кратного увеличения показателей по сравнению с SigLIP на MMVP. Наш код и контрольные точки доступны по адресу https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.io