TULIP: 통합 언어-이미지 사전 학습을 향하여
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
저자: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
초록
최근 CLIP과 SigLIP 같은 이미지-텍스트 대조 모델들이 성공을 거두었음에도 불구하고, 이러한 모델들은 종종 세밀한 이미지 이해를 요구하는 시각 중심 작업들, 예를 들어 물체 수 세기, 깊이 추정, 세밀한 객체 인식 등에서 어려움을 겪습니다. 이러한 모델들은 언어 정렬을 수행함으로써 시각적 이해보다는 높은 수준의 의미론을 우선시하는 경향이 있어, 이미지 이해가 약화됩니다. 반면, 시각 중심 모델들은 시각 정보를 처리하는 데 뛰어나지만 언어를 이해하는 데 어려움을 겪어 언어 주도 작업에서의 유연성이 제한됩니다. 본 연구에서는 기존의 CLIP 유사 모델들을 대체할 수 있는 오픈소스인 TULIP을 소개합니다. 우리의 방법은 생성적 데이터 증강, 강화된 이미지-이미지 및 텍스트-텍스트 대조 학습, 그리고 이미지/텍스트 재구성 정규화를 활용하여 세밀한 시각적 특징을 학습하면서도 전역적인 의미론적 정렬을 유지합니다. 10억 개 이상의 파라미터로 확장된 우리의 접근 방식은 여러 벤치마크에서 기존의 최첨단(SOTA) 모델들을 능가하며, ImageNet-1K에서 새로운 SOTA 제로샷 성능을 달성하고, RxRx1에서 SigLIP 대비 최대 2배 향상된 성능을 보이는 퓨샷 분류를 위한 선형 탐색을 제공하며, 시각-언어 모델들을 개선하여 MMVP에서 SigLIP 대비 3배 이상 높은 점수를 달성합니다. 우리의 코드/체크포인트는 https://tulip-berkeley.github.io에서 확인할 수 있습니다.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.io