ChatPaper.aiChatPaper

TULIP: Verso un Pre-addestramento Unificato per Linguaggio e Immagini

TULIP: Towards Unified Language-Image Pretraining

March 19, 2025
Autori: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI

Abstract

Nonostante il recente successo dei modelli contrastivi immagine-testo come CLIP e SigLIP, questi modelli spesso incontrano difficoltà in compiti incentrati sulla visione che richiedono una comprensione ad alta fedeltà delle immagini, come il conteggio, la stima della profondità e il riconoscimento fine di oggetti. Questi modelli, allineando il linguaggio, tendono a privilegiare la semantica di alto livello rispetto alla comprensione visiva, indebolendo la loro capacità di interpretazione delle immagini. D'altra parte, i modelli focalizzati sulla visione sono eccellenti nell'elaborazione delle informazioni visive ma faticano a comprendere il linguaggio, limitando la loro flessibilità per compiti guidati dal linguaggio. In questo lavoro, introduciamo TULIP, una sostituzione open-source e immediatamente utilizzabile per i modelli esistenti simili a CLIP. Il nostro metodo sfrutta l'aumentazione generativa dei dati, un apprendimento contrastivo potenziato immagine-immagine e testo-testo, e una regolarizzazione basata sulla ricostruzione di immagini/testi per apprendere caratteristiche visive dettagliate preservando l'allineamento semantico globale. Il nostro approccio, scalabile fino a oltre 1 miliardo di parametri, supera i modelli state-of-the-art (SOTA) esistenti su più benchmark, stabilendo un nuovo record SOTA nelle prestazioni zero-shot su ImageNet-1K, ottenendo un miglioramento fino a 2 volte rispetto a SigLIP su RxRx1 nella classificazione few-shot con sondaggio lineare, e migliorando i modelli visione-linguaggio, raggiungendo punteggi oltre 3 volte superiori rispetto a SigLIP su MMVP. Il nostro codice/checkpoint è disponibile all'indirizzo https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io
PDF492March 20, 2025