e5-omni : Alignement intermodal explicite pour les représentations omnimodales
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
January 7, 2026
papers.authors: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI
papers.abstract
Les systèmes d'information modernes manipulent fréquemment différents types d'éléments, tels qu'une requête textuelle, une image, un clip vidéo ou un segment audio. Cette réalité motive le développement de modèles d'embedding omnimodaux qui projettent des modalités hétérogènes dans un espace partagé pour permettre une comparaison directe. Cependant, la plupart des embeddings omnimodaux récents reposent encore largement sur un alignement implicite hérité des modèles de base pré-entraînés vision-langage (VLM). En pratique, cela engendre trois problèmes courants : (i) les logits de similarité présentent une netteté dépendante de la modalité, de sorte que les scores ne sont pas sur une échelle cohérente ; (ii) les négatifs intra-lot deviennent moins efficaces avec le temps car les lots multimodaux créent une distribution de difficulté déséquilibrée ; par conséquent, de nombreux négatifs deviennent rapidement triviaux et contribuent peu au gradient ; et (iii) les embeddings entre les modalités présentent des statistiques du premier et du second ordre non alignées, ce qui rend les classements moins stables. Pour résoudre ces problèmes, nous proposons e5-omni, une méthode légère d'alignement explicite qui adapte des VLM standards en modèles d'embedding omnimodaux robustes. e5-omni combine trois composants simples : (1) un étalonnage de température sensible à la modalité pour aligner les échelles de similarité, (2) un curriculum négatif contrôlable avec débiaisage pour se concentrer sur les négatifs ambigus tout en réduisant l'impact des faux négatifs, et (3) un blanchiment de lot avec régularisation de covariance pour mieux faire correspondre la géométrie intermodale dans l'espace d'embedding partagé. Les expériences sur MMEB-V2 et AudioCaps montrent des gains constants par rapport à des lignes de base bi-modales et omnimodales solides, et la même méthode se transpose également bien à d'autres architectures VLM. Nous publions notre point de contrôle de modèle à l'adresse https://huggingface.co/Haon-Chen/e5-omni-7B.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.