FuseLIP : Incorporation multimodale par fusion précoce de tokens discrets
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
June 3, 2025
Auteurs: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI
Résumé
Le pré-entraînement contrastif texte-image aligne les caractéristiques des paires texte-image dans un espace latent commun via des encodeurs distincts pour chaque modalité. Bien que cette approche obtienne des performances impressionnantes dans plusieurs tâches zero-shot, elle ne peut pas gérer nativement des entrées multimodales, c'est-à-dire encoder une image et un texte en un seul vecteur de caractéristiques. Pour y remédier, il est courant d'utiliser des modules supplémentaires pour fusionner les caractéristiques extraites par les encodeurs unimodaux. Dans ce travail, nous présentons FuseLIP, une architecture alternative pour l'embedding multimodal. En tirant parti des progrès récents dans les tokenizers d'images discrets, nous proposons d'utiliser un seul modèle de transformateur qui opère sur un vocabulaire étendu de tokens texte et image. Cette approche de fusion précoce permet aux différentes modalités d'interagir à chaque niveau d'encodage et d'obtenir des représentations plus riches par rapport à la fusion tardive classique. Nous collectons de nouveaux ensembles de données pour le pré-entraînement et l'évaluation multimodaux, en concevant des tâches complexes pour les modèles d'encodeurs multimodaux. Nous montrons que FuseLIP surpasse d'autres approches dans des tâches d'embedding multimodal telles que le VQA et la recherche de transformation d'image guidée par texte, tout en étant comparable aux modèles de référence dans les tâches unimodales.
English
Contrastive language-image pre-training aligns the features of text-image
pairs in a common latent space via distinct encoders for each modality. While
this approach achieves impressive performance in several zero-shot tasks, it
cannot natively handle multimodal inputs, i.e., encoding image and text into a
single feature vector. As a remedy, it is common practice to use additional
modules to merge the features extracted by the unimodal encoders. In this work,
we present FuseLIP, an alternative architecture for multimodal embedding.
Leveraging recent progress in discrete image tokenizers, we propose to use a
single transformer model which operates on an extended vocabulary of text and
image tokens. This early fusion approach allows the different modalities to
interact at each depth of encoding and obtain richer representations compared
to common late fusion. We collect new datasets for multimodal pre-training and
evaluation, designing challenging tasks for multimodal encoder models. We show
that FuseLIP outperforms other approaches in multimodal embedding tasks such as
VQA and text-guided image transformation retrieval, while being comparable to
baselines on unimodal tasks.