TULIP: Op Weg naar Geünificeerde Taal-Beeld Voorafgaande Training
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Auteurs: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Samenvatting
Ondanks het recente succes van beeld-tekst contrastieve modellen zoals CLIP en SigLIP, hebben deze modellen vaak moeite met visiegerichte taken die een hoogwaardig beeldbegrip vereisen, zoals tellen, diepteschatting en fijnmazige objectherkenning. Deze modellen, door het uitvoeren van taalafstemming, hebben de neiging om hoogwaardige semantiek te prioriteren boven visueel begrip, wat hun beeldbegrip verzwakt. Aan de andere kant zijn visiegerichte modellen uitstekend in het verwerken van visuele informatie, maar hebben ze moeite met het begrijpen van taal, wat hun flexibiliteit voor taalaangedreven taken beperkt. In dit werk introduceren we TULIP, een open-source, drop-in vervanging voor bestaande CLIP-achtige modellen. Onze methode maakt gebruik van generatieve data-augmentatie, verbeterde beeld-beeld en tekst-tekst contrastief leren, en beeld/tekst reconstructie regularisatie om fijnmazige visuele kenmerken te leren terwijl globale semantische afstemming behouden blijft. Onze aanpak, die schaalt tot meer dan 1B parameters, overtreft bestaande state-of-the-art (SOTA) modellen op meerdere benchmarks, en vestigt een nieuwe SOTA zero-shot prestatie op ImageNet-1K, levert tot een 2x verbetering op SigLIP op RxRx1 in lineaire probing voor few-shot classificatie, en verbetert visie-taalmodellen, met meer dan 3x hogere scores dan SigLIP op MMVP. Onze code/checkpoints zijn beschikbaar op https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.ioSummary
AI-Generated Summary