FuseLIP: Мультимодальные эмбеддинги через раннее слияние дискретных токенов
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens
June 3, 2025
Авторы: Christian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein
cs.AI
Аннотация
Контрастное предварительное обучение языково-изобразительных моделей выравнивает признаки пар текст-изображение в общем латентном пространстве с помощью отдельных кодировщиков для каждой модальности. Хотя этот подход демонстрирует впечатляющие результаты в нескольких задачах с нулевым обучением, он изначально не способен обрабатывать мультимодальные входные данные, то есть кодировать изображение и текст в единый вектор признаков. В качестве решения часто используются дополнительные модули для объединения признаков, извлеченных унимодальными кодировщиками. В данной работе мы представляем FuseLIP — альтернативную архитектуру для мультимодального встраивания. Используя последние достижения в области дискретных токенизаторов изображений, мы предлагаем использовать единую трансформерную модель, которая работает с расширенным словарем текстовых и изобразительных токенов. Такой подход раннего слияния позволяет различным модальностям взаимодействовать на каждом уровне кодирования и получать более богатые представления по сравнению с распространенным поздним слиянием. Мы собираем новые наборы данных для предварительного обучения и оценки, разрабатывая сложные задачи для моделей мультимодальных кодировщиков. Мы показываем, что FuseLIP превосходит другие подходы в задачах мультимодального встраивания, таких как визуальный вопросно-ответный поиск и поиск преобразований изображений с текстовым руководством, при этом оставаясь сопоставимым с базовыми методами в унимодальных задачах.
English
Contrastive language-image pre-training aligns the features of text-image
pairs in a common latent space via distinct encoders for each modality. While
this approach achieves impressive performance in several zero-shot tasks, it
cannot natively handle multimodal inputs, i.e., encoding image and text into a
single feature vector. As a remedy, it is common practice to use additional
modules to merge the features extracted by the unimodal encoders. In this work,
we present FuseLIP, an alternative architecture for multimodal embedding.
Leveraging recent progress in discrete image tokenizers, we propose to use a
single transformer model which operates on an extended vocabulary of text and
image tokens. This early fusion approach allows the different modalities to
interact at each depth of encoding and obtain richer representations compared
to common late fusion. We collect new datasets for multimodal pre-training and
evaluation, designing challenging tasks for multimodal encoder models. We show
that FuseLIP outperforms other approaches in multimodal embedding tasks such as
VQA and text-guided image transformation retrieval, while being comparable to
baselines on unimodal tasks.