TULIP: Op Weg naar Geünificeerde Taal-Beeld Voorafgaande Training

Samenvatting

Ondanks het recente succes van beeld-tekst contrastieve modellen zoals CLIP en SigLIP, hebben deze modellen vaak moeite met visiegerichte taken die een hoogwaardig beeldbegrip vereisen, zoals tellen, diepteschatting en fijnmazige objectherkenning. Deze modellen, door het uitvoeren van taalafstemming, hebben de neiging om hoogwaardige semantiek te prioriteren boven visueel begrip, wat hun beeldbegrip verzwakt. Aan de andere kant zijn visiegerichte modellen uitstekend in het verwerken van visuele informatie, maar hebben ze moeite met het begrijpen van taal, wat hun flexibiliteit voor taalaangedreven taken beperkt. In dit werk introduceren we TULIP, een open-source, drop-in vervanging voor bestaande CLIP-achtige modellen. Onze methode maakt gebruik van generatieve data-augmentatie, verbeterde beeld-beeld en tekst-tekst contrastief leren, en beeld/tekst reconstructie regularisatie om fijnmazige visuele kenmerken te leren terwijl globale semantische afstemming behouden blijft. Onze aanpak, die schaalt tot meer dan 1B parameters, overtreft bestaande state-of-the-art (SOTA) modellen op meerdere benchmarks, en vestigt een nieuwe SOTA zero-shot prestatie op ImageNet-1K, levert tot een 2x verbetering op SigLIP op RxRx1 in lineaire probing voor few-shot classificatie, en verbetert visie-taalmodellen, met meer dan 3x hogere scores dan SigLIP op MMVP. Onze code/checkpoints zijn beschikbaar op https://tulip-berkeley.github.io.

English

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

TULIP: Op Weg naar Geünificeerde Taal-Beeld Voorafgaande Training

TULIP: Towards Unified Language-Image Pretraining

Samenvatting

Support