e5-omni: Allineamento Esplicito Cross-modale per Embedding Omni-modali

Abstract

I moderni sistemi informativi spesso coinvolgono diversi tipi di elementi, ad esempio una query testuale, un'immagine, un videoclip o un segmento audio. Ciò motiva lo sviluppo di modelli di embedding onni-modali che mappano eterogenee modalità in uno spazio condiviso per un confronto diretto. Tuttavia, la maggior parte dei recenti embedding onni-modali si basa ancora pesantemente sull'allineamento implicito ereditato dai modelli backbone pre-addestrati visione-linguaggio (VLM). Nella pratica, ciò causa tre problemi comuni: (i) i logit di similarità presentano una nitidezza dipendente dalla modalità, quindi i punteggi non sono su una scala consistente; (ii) i negativi in-batch diventano meno efficaci nel tempo perché batch di modalità mista creano una distribuzione di difficoltà squilibrata; di conseguenza, molti negativi diventano rapidamente banali e contribuiscono poco al gradiente; e (iii) gli embedding tra le diverse modalità mostrano statistiche del primo e del secondo ordine non corrispondenti, il che rende le classificazioni meno stabili. Per affrontare questi problemi, proponiamo e5-omni, una ricetta leggera per l'allineamento esplicito che adatta VLM già disponibili in robusti modelli di embedding onni-modali. e5-omni combina tre semplici componenti: (1) una calibrazione della temperatura consapevole della modalità per allineare le scale di similarità, (2) un curriculum dei negativi controllabile con debiasing per focalizzarsi sui negativi confondenti riducendo l'impatto dei falsi negativi, e (3) uno sbiancamento batch con regolarizzazione della covarianza per far corrispondere meglio la geometria cross-modale nello spazio di embedding condiviso. Esperimenti su MMEB-V2 e AudioCaps mostrano miglioramenti consistenti rispetto a baseline bi-modali e onni-modali solide, e la stessa ricetta si trasferisce bene anche ad altri backbone VLM. Rilasciamo il nostro checkpoint del modello all'indirizzo https://huggingface.co/Haon-Chen/e5-omni-7B.

English

Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.

e5-omni: Allineamento Esplicito Cross-modale per Embedding Omni-modali

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

Abstract

Support