ChatPaper.aiChatPaper

e5-omni: Explizite cross-modale Ausrichtung für omni-modale Einbettungen

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

January 7, 2026
papers.authors: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI

papers.abstract

Moderne Informationssysteme beinhalten oft verschiedene Arten von Elementen, z. B. eine Textanfrage, ein Bild, ein Videoclip oder ein Audiosegment. Dies motiviert die Entwicklung omni-modaler Einbettungsmodelle, die heterogene Modalitäten in einen gemeinsamen Raum abbilden, um einen direkten Vergleich zu ermöglichen. Die meisten aktuellen omni-modalen Einbettungen stützen sich jedoch nach wie vor stark auf die implizite Ausrichtung, die von vortrainierten Vision-Language-Model (VLM)-Backbones geerbt wird. In der Praxis führt dies zu drei häufigen Problemen: (i) Ähnlichkeitslogits haben eine modalitätsabhängige Schärfe, sodass die Werte nicht auf einer konsistenten Skala liegen; (ii) Negative Stichproben innerhalb eines Batches werden mit der Zeit weniger effektiv, da Batches mit gemischten Modalitäten eine unausgeglichene Verteilung der Schwierigkeitsgrade erzeugen; infolgedessen werden viele Negative schnell trivial und tragen wenig zum Gradienten bei; und (iii) Einbettungen über verschiedene Modalitäten hinweg weisen nicht übereinstimmende Statistiken erster und zweiter Ordnung auf, was Rankings weniger stabil macht. Um diese Probleme zu lösen, schlagen wir e5-omni vor, ein leichtgewichtiges Rezept zur expliziten Ausrichtung, das handelsübliche VLMs in robuste omni-modale Einbettungsmodelle adaptiert. e5-omni kombiniert drei einfache Komponenten: (1) modalitätsbewusste Temperaturkalibrierung zur Angleichung der Ähnlichkeitsskalen, (2) ein kontrollierbarer Negative-Curriculum-Ansatz mit Entzerrung, um sich auf verwirrende Negative zu konzentrieren und gleichzeitig den Einfluss falscher Negative zu reduzieren, und (3) Batch-Whitening mit Kovarianzregularisierung, um die cross-modale Geometrie im gemeinsamen Einbettungsraum besser anzugleichen. Experimente mit MMEB-V2 und AudioCaps zeigen konsistente Verbesserungen gegenüber starken bi-modalen und omni-modalen Baseline-Modellen, und das gleiche Rezept überträgt sich auch gut auf andere VLM-Backbones. Wir veröffentlichen unseren Modell-Checkpoint unter https://huggingface.co/Haon-Chen/e5-omni-7B.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.
PDF43January 31, 2026