TULIP: Rumo a um Pré-treinamento Unificado de Linguagem e Imagem
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Autores: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Resumo
Apesar do sucesso recente dos modelos contrastivos de imagem-texto, como CLIP e SigLIP, esses modelos frequentemente enfrentam dificuldades em tarefas centradas na visão que exigem compreensão de imagem de alta fidelidade, como contagem, estimativa de profundidade e reconhecimento de objetos em nível detalhado. Esses modelos, ao realizarem alinhamento de linguagem, tendem a priorizar semântica de alto nível em detrimento da compreensão visual, enfraquecendo sua capacidade de entender imagens. Por outro lado, modelos focados em visão são excelentes no processamento de informações visuais, mas lutam para compreender linguagem, limitando sua flexibilidade para tarefas orientadas por linguagem. Neste trabalho, apresentamos o TULIP, uma substituição de código aberto e direta para modelos existentes do tipo CLIP. Nosso método aproveita a ampliação de dados generativa, o aprimoramento do aprendizado contrastivo imagem-imagem e texto-texto, e a regularização por reconstrução de imagem/texto para aprender características visuais detalhadas enquanto preserva o alinhamento semântico global. Nossa abordagem, escalando para mais de 1 bilhão de parâmetros, supera os modelos state-of-the-art (SOTA) existentes em vários benchmarks, estabelecendo um novo desempenho SOTA em zero-shot no ImageNet-1K, oferecendo uma melhoria de até 2 vezes sobre o SigLIP no RxRx1 em sondagem linear para classificação few-shot, e aprimorando modelos de visão-linguagem, alcançando pontuações mais de 3 vezes superiores ao SigLIP no MMVP. Nosso código/checkpoints estão disponíveis em https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.ioSummary
AI-Generated Summary