Преодоление барьера модальностей: универсальное обучение эмбеддингов с помощью мультимодальных языковых моделей
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Авторы: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Аннотация
Фреймворк Contrastive Language-Image Pre-training (CLIP) стал широко используемым подходом для обучения мультимодальных представлений, особенно в задачах поиска и кластеризации изображений и текстов. Однако его эффективность ограничена тремя ключевыми недостатками: (1) усечение текстовых токенов, (2) изолированное кодирование изображений и текстов и (3) недостаточная композициональность из-за поведения, характерного для модели "мешка слов". Хотя современные мультимодальные большие языковые модели (MLLMs) продемонстрировали значительные успехи в обобщённом понимании визуально-текстовой информации, их потенциал для обучения переносимым мультимодальным представлениям остаётся недостаточно изученным. В данной работе мы представляем UniME (Universal Multimodal Embedding) — новый двухэтапный фреймворк, который использует MLLMs для обучения дискриминативных представлений для различных задач. На первом этапе мы выполняем текстовое дискриминативное дистилляцию знаний из мощной языковой модели (LLM) для улучшения способности кодирования языкового компонента MLLM. На втором этапе мы вводим тонкую настройку с использованием сложных негативных примеров для дальнейшего улучшения обучения дискриминативных представлений. В частности, мы сначала устраняем загрязнение ложными негативами, а затем выбираем несколько сложных негативных примеров для каждого экземпляра в пределах батча, заставляя модель фокусироваться на сложных образцах. Этот подход не только повышает дискриминативную способность, но и улучшает способность следовать инструкциям в задачах. Мы проводим обширные эксперименты на бенчмарке MMEB и в нескольких задачах поиска, включая поиск по коротким и длинным описаниям, а также композиционный поиск. Результаты показывают, что UniME достигает стабильного улучшения производительности во всех задачах, демонстрируя превосходные дискриминативные и композиционные способности.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary