ChatPaper.aiChatPaper

e5-omni: Явное кросс-модальное выравнивание для омни-модальных эмбеддингов

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

January 7, 2026
Авторы: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI

Аннотация

Современные информационные системы часто работают с различными типами объектов, такими как текстовые запросы, изображения, видеофрагменты или аудиосегменты. Это стимулирует разработку омни-модальных моделей эмбеддингов, которые проецируют гетерогенные модальности в общее пространство для прямого сравнения. Однако большинство современных омни-модальных эмбеддингов по-прежнему сильно полагаются на неявное выравнивание, унаследованное от предобученных визуально-языковых моделей (VLM). На практике это вызывает три распространённые проблемы: (i) логиты сходства имеют модально-зависимую остроту, поэтому оценки находятся в несогласованных масштабах; (ii) негативные примеры внутри батча со временем становятся менее эффективными, поскольку смешанно-модальные батчи создают несбалансированное распределение сложности; в результате многие негативы быстро становятся тривиальными и вносят малый вклад в градиент; и (iii) эмбеддинги между модальностями демонстрируют несогласованные статистики первого и второго порядка, что делает ранжирование менее устойчивым. Для решения этих проблем мы предлагаем e5-omni — облегчённый рецепт явного выравнивания, адаптирующий готовые VLM в robustные омни-модальные модели эмбеддингов. e5-omni сочетает три простых компонента: (1) модально-чувствительную калибровку температуры для согласования шкал сходства, (2) управляемую негативную учебную программу с устранением смещений для фокусировки на сложных негативах при снижении влияния ложных негативов, и (3) batch-отбеливание с регуляризацией ковариации для лучшего согласования кросс-модальной геометрии в общем пространстве эмбеддингов. Эксперименты на MMEB-V2 и AudioCaps показывают устойчивое улучшение по сравнению с сильными би-модальными и омни-модальными базовыми методами, причём тот же рецепт хорошо переносится на другие VLM-архитектуры. Мы публикуем нашу модель по адресу https://huggingface.co/Haon-Chen/e5-omni-7B.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.
PDF43February 7, 2026