ChatPaper.aiChatPaper

FuseLIP: Multimodale Einbettungen durch frühe Fusion diskreter Tokens

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

June 3, 2025
Autoren: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI

Zusammenfassung

Kontrastives Sprach-Bild-Vortraining richtet die Merkmale von Text-Bild-Paaren in einem gemeinsamen latenten Raum aus, wobei für jede Modalität separate Encoder verwendet werden. Während dieser Ansatz beeindruckende Leistungen in mehreren Zero-Shot-Aufgaben erzielt, kann er multimodale Eingaben nicht nativ verarbeiten, d.h. das Kodieren von Bild und Text in einen einzigen Merkmalsvektor. Als Abhilfe ist es gängige Praxis, zusätzliche Module zu verwenden, um die von den unimodalen Encodern extrahierten Merkmale zu fusionieren. In dieser Arbeit präsentieren wir FuseLIP, eine alternative Architektur für multimodale Einbettungen. Unter Ausnutzung der jüngsten Fortschritte bei diskreten Bild-Tokenizern schlagen wir vor, ein einziges Transformer-Modell zu verwenden, das auf einem erweiterten Vokabular von Text- und Bild-Token arbeitet. Dieser Ansatz der frühen Fusion ermöglicht es den verschiedenen Modalitäten, auf jeder Ebene der Kodierung zu interagieren und im Vergleich zur gängigen späten Fusion reichhaltigere Repräsentationen zu erhalten. Wir sammeln neue Datensätze für multimodales Vortraining und Evaluation, indem wir anspruchsvolle Aufgaben für multimodale Encoder-Modelle entwerfen. Wir zeigen, dass FuseLIP andere Ansätze in multimodalen Einbettungsaufgaben wie VQA und textgesteuerter Bildtransformations-Retrieval übertrifft, während es bei unimodalen Aufgaben vergleichbar mit den Baselines ist.
English
Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.
PDF32June 4, 2025