ChatPaper.aiChatPaper

FuseLIP: Multimodale Embeddings via Vroege Fusie van Discrete Tokens

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

June 3, 2025
Auteurs: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI

Samenvatting

Contrastief taal-beeld vooraf trainen brengt de kenmerken van tekst-beeldparen in een gemeenschappelijke latente ruimte uitgelijnd via afzonderlijke encoders voor elke modaliteit. Hoewel deze aanpak indrukwekkende prestaties behaalt in verschillende zero-shot taken, kan het niet van nature omgaan met multimodale invoer, d.w.z. het coderen van beeld en tekst in een enkele kenmerkvector. Als oplossing is het gangbare praktijk om aanvullende modules te gebruiken om de kenmerken die door de unimodale encoders zijn geëxtraheerd, samen te voegen. In dit werk presenteren we FuseLIP, een alternatieve architectuur voor multimodale embedding. Gebruikmakend van recente vooruitgang in discrete beeld tokenizers, stellen we voor om een enkel transformermodel te gebruiken dat werkt op een uitgebreide woordenschat van tekst- en beeldtokens. Deze vroege fusiebenadering stelt de verschillende modaliteiten in staat om op elke diepte van de codering te interageren en rijkere representaties te verkrijgen in vergelijking met gebruikelijke late fusie. We verzamelen nieuwe datasets voor multimodale vooraf training en evaluatie, waarbij we uitdagende taken ontwerpen voor multimodale encodermodellen. We tonen aan dat FuseLIP andere benaderingen overtreft in multimodale embeddingtaken zoals VQA en tekstgeleide beeldtransformatieretrieval, terwijl het vergelijkbaar is met basislijnen op unimodale taken.
English
Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.
PDF32June 4, 2025