TULIP : Vers un prétraitement unifié langage-image

papers.abstract

Malgré le récent succès des modèles de contraste image-texte comme CLIP et SigLIP, ces modèles rencontrent souvent des difficultés avec des tâches centrées sur la vision qui nécessitent une compréhension d'image de haute fidélité, telles que le comptage, l'estimation de la profondeur et la reconnaissance fine d'objets. Ces modèles, en alignant le langage, ont tendance à privilégier la sémantique de haut niveau plutôt que la compréhension visuelle, affaiblissant ainsi leur compréhension des images. D'un autre côté, les modèles axés sur la vision excellent dans le traitement des informations visuelles mais peinent à comprendre le langage, limitant leur flexibilité pour les tâches pilotées par le langage. Dans ce travail, nous présentons TULIP, un remplacement open-source et prêt à l'emploi pour les modèles existants de type CLIP. Notre méthode exploite l'augmentation générative de données, un apprentissage par contraste image-image et texte-texte amélioré, ainsi qu'une régularisation par reconstruction d'image/texte pour apprendre des caractéristiques visuelles fines tout en préservant l'alignement sémantique global. Notre approche, qui s'étend à plus de 1 milliard de paramètres, surpasse les modèles de pointe (SOTA) existants sur plusieurs benchmarks, établissant une nouvelle performance SOTA en zero-shot sur ImageNet-1K, offrant jusqu'à 2 fois d'amélioration par rapport à SigLIP sur RxRx1 en sondage linéaire pour la classification few-shot, et améliorant les modèles vision-langage, atteignant des scores plus de 3 fois supérieurs à ceux de SigLIP sur MMVP. Notre code et nos checkpoints sont disponibles à l'adresse https://tulip-berkeley.github.io.

English

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

TULIP : Vers un prétraitement unifié langage-image

TULIP: Towards Unified Language-Image Pretraining

papers.abstract

Support