TULIP : Vers un prétraitement unifié langage-image
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Auteurs: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Résumé
Malgré le récent succès des modèles de contraste image-texte comme CLIP et SigLIP, ces modèles rencontrent souvent des difficultés avec des tâches centrées sur la vision qui nécessitent une compréhension d'image de haute fidélité, telles que le comptage, l'estimation de la profondeur et la reconnaissance fine d'objets. Ces modèles, en alignant le langage, ont tendance à privilégier la sémantique de haut niveau plutôt que la compréhension visuelle, affaiblissant ainsi leur compréhension des images. D'un autre côté, les modèles axés sur la vision excellent dans le traitement des informations visuelles mais peinent à comprendre le langage, limitant leur flexibilité pour les tâches pilotées par le langage. Dans ce travail, nous présentons TULIP, un remplacement open-source et prêt à l'emploi pour les modèles existants de type CLIP. Notre méthode exploite l'augmentation générative de données, un apprentissage par contraste image-image et texte-texte amélioré, ainsi qu'une régularisation par reconstruction d'image/texte pour apprendre des caractéristiques visuelles fines tout en préservant l'alignement sémantique global. Notre approche, qui s'étend à plus de 1 milliard de paramètres, surpasse les modèles de pointe (SOTA) existants sur plusieurs benchmarks, établissant une nouvelle performance SOTA en zero-shot sur ImageNet-1K, offrant jusqu'à 2 fois d'amélioration par rapport à SigLIP sur RxRx1 en sondage linéaire pour la classification few-shot, et améliorant les modèles vision-langage, atteignant des scores plus de 3 fois supérieurs à ceux de SigLIP sur MMVP. Notre code et nos checkpoints sont disponibles à l'adresse https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.ioSummary
AI-Generated Summary