FuseLIP: Embedding multimodali tramite fusione precoce di token discreti
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
June 3, 2025
Autori: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI
Abstract
Il pre-addestramento contrastivo lingua-immagine allinea le caratteristiche delle coppie testo-immagine in uno spazio latente comune attraverso encoder distinti per ciascuna modalità. Sebbene questo approccio raggiunga prestazioni impressionanti in diversi compiti zero-shot, non è in grado di gestire nativamente input multimodali, ovvero codificare immagine e testo in un unico vettore di caratteristiche. Come rimedio, è pratica comune utilizzare moduli aggiuntivi per fondere le caratteristiche estratte dagli encoder unimodali. In questo lavoro, presentiamo FuseLIP, un'architettura alternativa per l'embedding multimodale. Sfruttando i recenti progressi nei tokenizer discreti per immagini, proponiamo di utilizzare un singolo modello transformer che opera su un vocabolario esteso di token di testo e immagini. Questo approccio di fusione precoce consente alle diverse modalità di interagire a ogni livello di codifica e ottenere rappresentazioni più ricche rispetto alla comune fusione tardiva. Raccogliamo nuovi dataset per il pre-addestramento e la valutazione multimodale, progettando compiti impegnativi per i modelli di encoder multimodali. Mostriamo che FuseLIP supera altri approcci nei compiti di embedding multimodale come il VQA e il recupero di trasformazioni di immagini guidate da testo, pur essendo comparabile ai baseline nei compiti unimodali.
English
Contrastive language-image pre-training aligns the features of text-image
pairs in a common latent space via distinct encoders for each modality. While
this approach achieves impressive performance in several zero-shot tasks, it
cannot natively handle multimodal inputs, i.e., encoding image and text into a
single feature vector. As a remedy, it is common practice to use additional
modules to merge the features extracted by the unimodal encoders. In this work,
we present FuseLIP, an alternative architecture for multimodal embedding.
Leveraging recent progress in discrete image tokenizers, we propose to use a
single transformer model which operates on an extended vocabulary of text and
image tokens. This early fusion approach allows the different modalities to
interact at each depth of encoding and obtain richer representations compared
to common late fusion. We collect new datasets for multimodal pre-training and
evaluation, designing challenging tasks for multimodal encoder models. We show
that FuseLIP outperforms other approaches in multimodal embedding tasks such as
VQA and text-guided image transformation retrieval, while being comparable to
baselines on unimodal tasks.