FuseLIP: 離散トークンの早期融合によるマルチモーダル埋め込み
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
June 3, 2025
著者: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI
要旨
コントラスティブ言語-画像事前学習は、各モダリティ専用のエンコーダーを用いて、テキストと画像のペアの特徴を共通の潜在空間に整列させます。このアプローチは、いくつかのゼロショットタスクで印象的な性能を達成しますが、マルチモーダル入力をネイティブに処理することはできません。つまり、画像とテキストを単一の特徴ベクトルにエンコードすることができません。この問題を解決するため、ユニモーダルエンコーダーによって抽出された特徴を統合するために追加のモジュールを使用することが一般的です。本研究では、マルチモーダル埋め込みのための代替アーキテクチャであるFuseLIPを提案します。離散画像トークナイザーの最近の進展を活用し、テキストと画像のトークンからなる拡張語彙を操作する単一のトランスフォーマーモデルを使用することを提案します。この早期融合アプローチにより、異なるモダリティがエンコーディングの各段階で相互作用し、一般的な後期融合と比較してより豊かな表現を得ることができます。マルチモーダル事前学習と評価のための新しいデータセットを収集し、マルチモーダルエンコーダーモデルにとって挑戦的なタスクを設計します。FuseLIPが、VQAやテキストガイド付き画像変換検索などのマルチモーダル埋め込みタスクで他のアプローチを上回り、ユニモーダルタスクではベースラインと同等の性能を示すことを実証します。
English
Contrastive language-image pre-training aligns the features of text-image
pairs in a common latent space via distinct encoders for each modality. While
this approach achieves impressive performance in several zero-shot tasks, it
cannot natively handle multimodal inputs, i.e., encoding image and text into a
single feature vector. As a remedy, it is common practice to use additional
modules to merge the features extracted by the unimodal encoders. In this work,
we present FuseLIP, an alternative architecture for multimodal embedding.
Leveraging recent progress in discrete image tokenizers, we propose to use a
single transformer model which operates on an extended vocabulary of text and
image tokens. This early fusion approach allows the different modalities to
interact at each depth of encoding and obtain richer representations compared
to common late fusion. We collect new datasets for multimodal pre-training and
evaluation, designing challenging tasks for multimodal encoder models. We show
that FuseLIP outperforms other approaches in multimodal embedding tasks such as
VQA and text-guided image transformation retrieval, while being comparable to
baselines on unimodal tasks.