TULIP: Hacia un Pretrenamiento Unificado de Lenguaje e Imágenes

Resumen

A pesar del reciente éxito de los modelos de contraste imagen-texto como CLIP y SigLIP, estos modelos suelen tener dificultades con tareas centradas en la visión que requieren una comprensión de imágenes de alta fidelidad, como el conteo, la estimación de profundidad y el reconocimiento de objetos de gran detalle. Estos modelos, al realizar una alineación del lenguaje, tienden a priorizar la semántica de alto nivel sobre la comprensión visual, debilitando su entendimiento de las imágenes. Por otro lado, los modelos centrados en la visión son excelentes para procesar información visual, pero tienen dificultades para comprender el lenguaje, lo que limita su flexibilidad para tareas impulsadas por el lenguaje. En este trabajo, presentamos TULIP, un reemplazo de código abierto y directo para los modelos existentes similares a CLIP. Nuestro método aprovecha la ampliación de datos generativa, el aprendizaje de contraste mejorado imagen-imagen y texto-texto, y la regularización de reconstrucción de imágenes/textos para aprender características visuales detalladas mientras se preserva la alineación semántica global. Nuestro enfoque, que escala a más de 1B parámetros, supera a los modelos de última generación (SOTA) existentes en múltiples benchmarks, estableciendo un nuevo rendimiento SOTA en zero-shot en ImageNet-1K, logrando una mejora de hasta 2 veces sobre SigLIP en RxRx1 en pruebas lineales para clasificación con pocos ejemplos, y mejorando los modelos de visión-lenguaje, alcanzando puntuaciones más de 3 veces superiores a SigLIP en MMVP. Nuestro código y puntos de control están disponibles en https://tulip-berkeley.github.io.

English

Despite the recent success of image-text contrastive models like CLIP and SigLIP, these models often struggle with vision-centric tasks that demand high-fidelity image understanding, such as counting, depth estimation, and fine-grained object recognition. These models, by performing language alignment, tend to prioritize high-level semantics over visual understanding, weakening their image understanding. On the other hand, vision-focused models are great at processing visual information but struggle to understand language, limiting their flexibility for language-driven tasks. In this work, we introduce TULIP, an open-source, drop-in replacement for existing CLIP-like models. Our method leverages generative data augmentation, enhanced image-image and text-text contrastive learning, and image/text reconstruction regularization to learn fine-grained visual features while preserving global semantic alignment. Our approach, scaling to over 1B parameters, outperforms existing state-of-the-art (SOTA) models across multiple benchmarks, establishing a new SOTA zero-shot performance on ImageNet-1K, delivering up to a 2times enhancement over SigLIP on RxRx1 in linear probing for few-shot classification, and improving vision-language models, achieving over 3times higher scores than SigLIP on MMVP. Our code/checkpoints are available at https://tulip-berkeley.github.io

TULIP: Hacia un Pretrenamiento Unificado de Lenguaje e Imágenes

TULIP: Towards Unified Language-Image Pretraining

Resumen

Support