ChatPaper.aiChatPaper

FuseLIP: Incorporação Multimodal via Fusão Precoce de Tokens Discretos

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

June 3, 2025
Autores: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI

Resumo

O pré-treinamento contrastivo de linguagem-imagem alinha as características de pares texto-imagem em um espaço latente comum por meio de codificadores distintos para cada modalidade. Embora essa abordagem alcance desempenho impressionante em várias tarefas de zero-shot, ela não consegue lidar nativamente com entradas multimodais, ou seja, codificar imagem e texto em um único vetor de características. Como solução, é prática comum usar módulos adicionais para mesclar as características extraídas pelos codificadores unimodais. Neste trabalho, apresentamos o FuseLIP, uma arquitetura alternativa para incorporação multimodal. Aproveitando os recentes avanços em tokenizadores discretos de imagem, propomos o uso de um único modelo transformer que opera em um vocabulário estendido de tokens de texto e imagem. Essa abordagem de fusão precoce permite que as diferentes modalidades interajam em cada profundidade de codificação e obtenham representações mais ricas em comparação com a fusão tardia comum. Coletamos novos conjuntos de dados para pré-treinamento e avaliação multimodal, projetando tarefas desafiadoras para modelos de codificação multimodal. Mostramos que o FuseLIP supera outras abordagens em tarefas de incorporação multimodal, como VQA e recuperação de transformação de imagem guiada por texto, enquanto é comparável às linhas de base em tarefas unimodais.
English
Contrastive language-image pre-training aligns the features of text-image pairs in a common latent space via distinct encoders for each modality. While this approach achieves impressive performance in several zero-shot tasks, it cannot natively handle multimodal inputs, i.e., encoding image and text into a single feature vector. As a remedy, it is common practice to use additional modules to merge the features extracted by the unimodal encoders. In this work, we present FuseLIP, an alternative architecture for multimodal embedding. Leveraging recent progress in discrete image tokenizers, we propose to use a single transformer model which operates on an extended vocabulary of text and image tokens. This early fusion approach allows the different modalities to interact at each depth of encoding and obtain richer representations compared to common late fusion. We collect new datasets for multimodal pre-training and evaluation, designing challenging tasks for multimodal encoder models. We show that FuseLIP outperforms other approaches in multimodal embedding tasks such as VQA and text-guided image transformation retrieval, while being comparable to baselines on unimodal tasks.
PDF32June 4, 2025