TULIP: Hacia un Pretrenamiento Unificado de Lenguaje e Imágenes
TULIP: Towards Unified Language-Image Pretraining
March 19, 2025
Autores: Zineng Tang, Long Lian, Seun Eisape, XuDong Wang, Roei Herzig, Adam Yala, Alane Suhr, Trevor Darrell, David M. Chan
cs.AI
Resumen
A pesar del reciente éxito de los modelos de contraste imagen-texto como CLIP y SigLIP, estos modelos suelen tener dificultades con tareas centradas en la visión que requieren una comprensión de imágenes de alta fidelidad, como el conteo, la estimación de profundidad y el reconocimiento de objetos de gran detalle. Estos modelos, al realizar una alineación del lenguaje, tienden a priorizar la semántica de alto nivel sobre la comprensión visual, debilitando su entendimiento de las imágenes. Por otro lado, los modelos centrados en la visión son excelentes para procesar información visual, pero tienen dificultades para comprender el lenguaje, lo que limita su flexibilidad para tareas impulsadas por el lenguaje. En este trabajo, presentamos TULIP, un reemplazo de código abierto y directo para los modelos existentes similares a CLIP. Nuestro método aprovecha la ampliación de datos generativa, el aprendizaje de contraste mejorado imagen-imagen y texto-texto, y la regularización de reconstrucción de imágenes/textos para aprender características visuales detalladas mientras se preserva la alineación semántica global. Nuestro enfoque, que escala a más de 1B parámetros, supera a los modelos de última generación (SOTA) existentes en múltiples benchmarks, estableciendo un nuevo rendimiento SOTA en zero-shot en ImageNet-1K, logrando una mejora de hasta 2 veces sobre SigLIP en RxRx1 en pruebas lineales para clasificación con pocos ejemplos, y mejorando los modelos de visión-lenguaje, alcanzando puntuaciones más de 3 veces superiores a SigLIP en MMVP. Nuestro código y puntos de control están disponibles en https://tulip-berkeley.github.io.
English
Despite the recent success of image-text contrastive models like CLIP and
SigLIP, these models often struggle with vision-centric tasks that demand
high-fidelity image understanding, such as counting, depth estimation, and
fine-grained object recognition. These models, by performing language
alignment, tend to prioritize high-level semantics over visual understanding,
weakening their image understanding. On the other hand, vision-focused models
are great at processing visual information but struggle to understand language,
limiting their flexibility for language-driven tasks. In this work, we
introduce TULIP, an open-source, drop-in replacement for existing CLIP-like
models. Our method leverages generative data augmentation, enhanced image-image
and text-text contrastive learning, and image/text reconstruction
regularization to learn fine-grained visual features while preserving global
semantic alignment. Our approach, scaling to over 1B parameters, outperforms
existing state-of-the-art (SOTA) models across multiple benchmarks,
establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to
a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot
classification, and improving vision-language models, achieving over 3times
higher scores than SigLIP on MMVP. Our code/checkpoints are available at
https://tulip-berkeley.github.ioSummary
AI-Generated Summary