TULIP:統合言語-画像事前学習に向けて
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
著者: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
要旨
CLIPやSigLIPのような画像-テキスト対照モデルの最近の成功にもかかわらず、これらのモデルは、計数、深度推定、細粒度の物体認識など、高忠実度の画像理解を必要とする視覚中心のタスクに苦戦することが多い。これらのモデルは、言語アラインメントを行うことで、視覚的理解よりも高レベルの意味論を優先する傾向があり、画像理解が弱まってしまう。一方、視覚に特化したモデルは視覚情報の処理に優れているが、言語の理解に苦労し、言語駆動型タスクに対する柔軟性が制限される。本研究では、既存のCLIP類似モデルのドロップイン代替となるオープンソースのTULIPを紹介する。我々の手法は、生成的なデータ拡張、強化された画像-画像およびテキスト-テキスト対照学習、画像/テキスト再構成正則化を活用し、グローバルな意味論的アラインメントを維持しながら、細粒度の視覚的特徴を学習する。10億以上のパラメータにスケーリングする我々のアプローチは、複数のベンチマークで既存の最先端(SOTA)モデルを上回り、ImageNet-1Kで新たなSOTAゼロショット性能を確立し、RxRx1でのFew-shot分類の線形プローブにおいてSigLIPに対して最大2倍の向上を達成し、視覚言語モデルを改善し、MMVPでSigLIPよりも3倍以上のスコアを達成した。我々のコード/チェックポイントはhttps://tulip-berkeley.github.ioで公開されている。
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.io