e5-omni: Alinhamento Explícito Intermodal para Incorporações Omnimodais

Resumo

Os sistemas modernos de informação frequentemente envolvem diferentes tipos de itens, por exemplo, uma consulta de texto, uma imagem, um clipe de vídeo ou um segmento de áudio. Isto motiva o desenvolvimento de modelos de incorporação omni-modais que mapeiam modalidades heterogéneas para um espaço partilhado para comparação direta. No entanto, a maioria das incorporações omni-modais recentes ainda depende fortemente do alinhamento implícito herdado dos modelos base de visão e linguagem (VLM) pré-treinados. Na prática, isto causa três problemas comuns: (i) os *logits* de similaridade têm uma nitidez dependente da modalidade, pelo que as pontuações não estão numa escala consistente; (ii) os negativos intra-*batch* tornam-se menos eficazes ao longo do tempo porque os *batches* de modalidades mistas criam uma distribuição de dificuldade desequilibrada; como resultado, muitos negativos rapidamente se tornam triviais e contribuem pouco para o gradiente; e (iii) as incorporações entre modalidades apresentam estatísticas de primeira e segunda ordem desalinhadas, o que torna as classificações menos estáveis. Para resolver estes problemas, propomos o e5-omni, uma receita leve de alinhamento explícito que adapta VLMs disponíveis comercialmente em modelos robustos de incorporação omni-modal. O e5-omni combina três componentes simples: (1) calibração de temperatura com consciência da modalidade para alinhar as escalas de similaridade, (2) um currículo de negativos controlável com correção de viés para se concentrar nos negativos confusos, reduzindo simultaneamente o impacto dos falsos negativos, e (3) *whitening* de *batch* com regularização de covariância para melhor corresponder à geometria cross-modal no espaço de incorporação partilhado. Experiências no MMEB-V2 e no AudioCaps mostram ganhos consistentes face a fortes linhas de base bi-modais e omni-modais, e a mesma receita também se transfere bem para outras arquiteturas base de VLM. Disponibilizamos o nosso *checkpoint* do modelo em https://huggingface.co/Haon-Chen/e5-omni-7B.

English

Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.

e5-omni: Alinhamento Explícito Intermodal para Incorporações Omnimodais

e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings

Resumo

Support