e5-omni: Alineación Explícita Intermodal para Incrustaciones Omnimodales
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
January 7, 2026
Autores: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI
Resumen
Los sistemas de información modernos frecuentemente involucran diferentes tipos de elementos, por ejemplo, una consulta de texto, una imagen, un clip de video o un segmento de audio. Esto motiva el desarrollo de modelos de *embedding* omnimodales que mapean modalidades heterogéneas en un espacio compartido para permitir una comparación directa. Sin embargo, la mayoría de los *embeddings* omnimodales recientes aún dependen en gran medida de la alineación implícita heredada de los modelos base de visión y lenguaje (*Vision-Language Models* o VLM) preentrenados. En la práctica, esto causa tres problemas comunes: (i) los *logits* de similitud presentan una nitidez dependiente de la modalidad, por lo que las puntuaciones no están en una escala consistente; (ii) los negativos dentro del lote (*in-batch*) se vuelven menos efectivos con el tiempo porque los lotes de modalidad mixta crean una distribución de dificultad desequilibrada; como resultado, muchos negativos se vuelven triviales rápidamente y contribuyen poco al gradiente; y (iii) los *embeddings* entre modalidades muestran estadísticas de primer y segundo orden desajustadas, lo que hace que las clasificaciones (*rankings*) sean menos estables. Para abordar estos problemas, proponemos E5-Omni, una receta liviana de alineación explícita que adapta VLMs disponibles en el mercado (*off-the-shelf*) en modelos robustos de *embedding* omnimodal. E5-Omni combina tres componentes simples: (1) calibración de temperatura consciente de la modalidad para alinear las escalas de similitud, (2) un currículum de negativos controlable con eliminación de sesgo (*debiasing*) para centrarse en los negativos confusos mientras se reduce el impacto de los falsos negativos, y (3) *blanqueamiento* de lotes (*batch whitening*) con regularización de covarianza para igualar mejor la geometría cross-modal en el espacio de *embedding* compartido. Los experimentos en MMEB-V2 y AudioCaps muestran mejoras consistentes respecto a líneas base bimodales y omnimodales sólidas, y la misma receta también se transfiere bien a otros modelos base VLM. Publicamos nuestro *checkpoint* del modelo en https://huggingface.co/Haon-Chen/e5-omni-7B.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.