e5-omni: Expliciete Cross-modale Afstemming voor Omni-modale Inbeddingen
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
January 7, 2026
Auteurs: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI
Samenvatting
Moderne informatiesystemen omvatten vaak verschillende soorten items, zoals een tekstquery, een afbeelding, een videofragment of een audiosegment. Dit motiveert de ontwikkeling van omnimodale embeddingmodellen die heterogene modaliteiten afbeelden in een gedeelde ruimte voor directe vergelijking. De meeste recente omnimodale embeddings blijven echter sterk leunen op impliciete alignering die is overgenomen van voorgetrainde vision-language model (VLM)-backbones. In de praktijk veroorzaakt dit drie veelvoorkomende problemen: (i) similariteitslogits hebben een modaliteitsafhankelijke scherpte, waardoor scores niet op een consistente schaal staan; (ii) in-batch negatieven worden na verloop van tijd minder effectief omdat gemengde modaliteitsbatches een ongebalanceerde hardheidsverdeling creëren; hierdoor worden veel negatieven snel triviaal en dragen ze weinig gradient bij; en (iii) embeddings tussen modaliteiten vertonen niet-overeenkomende eerste- en tweedegraadsstatistieken, wat rankings minder stabiel maakt. Om deze problemen aan te pakken, stellen we e5-omni voor, een lichtgewicht expliciet aligneringsrecept dat kant-en-klare VLM's aanpast tot robuuste omnimodale embeddingmodellen. e5-omni combineert drie eenvoudige componenten: (1) modaliteitsbewuste temperatuurcalibratie om similariteitsschalen af te stemmen, (2) een controleerbaar negatief curriculum met debiasing om te focussen op verwarrende negatieven en tegelijk de impact van fout-negatieven te verminderen, en (3) batch-whitening met covariantieregularisatie om de cross-modale geometrie in de gedeelde embeddedruimte beter op elkaar af te stemmen. Experimenten op MMEB-V2 en AudioCaps tonen consistente verbeteringen ten opzichte van sterke bimodale en omnimodale baselines, en hetzelfde recept transferert ook goed naar andere VLM-backbones. We geven ons modelcheckpoint vrij op https://huggingface.co/Haon-Chen/e5-omni-7B.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.