e5-omni: 全モーダル埋め込みのための明示的クロスモーダルアライメント
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
January 7, 2026
著者: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI
要旨
現代の情報システムでは、テキストクエリ、画像、動画クリップ、音声セグメントなど、異なる種類のアイテムを扱うことが多い。これにより、異種モダリティを共有空間にマッピングして直接比較可能にするオムニモーダル埋め込みモデルの開発が促進されている。しかし、最近のオムニモーダル埋め込みモデルの多くは、事前学習済み視覚言語モデル(VLM)バックボーンから継承された暗黙的なアライメントに依然として大きく依存している。実際には、これにより以下の3つの一般的な問題が生じる:(i)類似度ロジットがモダリティ依存のシャープネスを示し、スコアが一貫した尺度にならない;(ii)混合モダリティバッチによって不均衡な難易度分布が生じるため、バッチ内負例の効果が時間とともに低下し、多くの負例が急速に自明化して勾配への寄与がほとんどなくなる;(iii)モダリティ間で埋め込みの一次および二次統計量に不一致が生じ、ランキングの安定性が損なわれる。これらの問題に対処するため、我々は既存のVLMを堅牢なオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメント手法であるe5-omniを提案する。e5-omniは3つのシンプルな構成要素を組み合わせる:(1)類似度尺度を調整するモダリティ対応温度較正、(2)混同を招く負例に焦点を当てつつ偽負例の影響を軽減する制御可能な負例カリキュラムとデバイアス、(3)共有埋め込み空間におけるクロスモーダル幾何学をより適切に一致させる共分散正則化付きバッチ白色化。MMEB-V2とAudioCapsでの実験により、強力な双モーダル及びオムニモーダルベースラインを一貫して上回ることを示し、同じ手法が他のVLMバックボーンにも良好に転移することを確認した。モデルチェックポイントはhttps://huggingface.co/Haon-Chen/e5-omni-7Bで公開している。
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.