ChatPaper.aiChatPaper

FuseLIP: Incrustaciones Multimodales mediante Fusión Temprana de Tokens Discretos

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

June 3, 2025
Autores: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI

Resumen

El preentrenamiento contrastivo de lenguaje-imagen alinea las características de pares texto-imagen en un espacio latente común mediante codificadores distintos para cada modalidad. Si bien este enfoque logra un rendimiento impresionante en varias tareas de cero disparos, no puede manejar de forma nativa entradas multimodales, es decir, codificar una imagen y un texto en un único vector de características. Como remedio, es una práctica común utilizar módulos adicionales para fusionar las características extraídas por los codificadores unimodales. En este trabajo, presentamos FuseLIP, una arquitectura alternativa para la incrustación multimodal. Aprovechando los avances recientes en tokenizadores discretos de imágenes, proponemos utilizar un único modelo transformador que opera sobre un vocabulario extendido de tokens de texto e imágenes. Este enfoque de fusión temprana permite que las diferentes modalidades interactúen en cada nivel de codificación y obtengan representaciones más ricas en comparación con la fusión tardía común. Recopilamos nuevos conjuntos de datos para el preentrenamiento y evaluación multimodal, diseñando tareas desafiantes para modelos de codificación multimodal. Demostramos que FuseLIP supera a otros enfoques en tareas de incrustación multimodal, como VQA y la recuperación de transformación de imágenes guiada por texto, mientras que es comparable a los baselines en tareas unimodales.
English
Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.
PDF32June 4, 2025