e5-omni: 명시적 교차 모달 정렬을 통한 올모달 임베딩
e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings
January 7, 2026
저자: Haonan Chen, Sicheng Gao, Radu Timofte, Tetsuya Sakai, Zhicheng Dou
cs.AI
초록
현대 정보 시스템은 텍스트 질의, 이미지, 비디오 클립, 오디오 세그먼트 등 다양한 유형의 항목들을 종합적으로 다룹니다. 이에 따라 이기종 모달리티를 공유 공간에 매핑하여 직접 비교가 가능한 전(全)모달 임베딩 모델의 필요성이 대두되고 있습니다. 그러나 최근의 대부분의 전모달 임베딩은 사전 학습된 시각-언어 모델 백본에서 상속된 암묵적 정렬에 크게 의존하고 있습니다. 실제로 이로 인해 세 가지 일반적인 문제가 발생합니다: (i) 유사도 로짓이 모달리티에 따라 예리도가 달라 점수가 일관된 척도에 있지 않음, (ii) 혼합 모달리티 배치가 불균형한 난이도 분포를 생성하여 배치 내 네거티브 샘플의 효과가 시간이 지남에 따라 감소함. 결과적으로 많은 네거티브 샘플이 빠르게 쉬워져 기여하는 기울기가 미미해짐, (iii) 모달리티 간 임베딩이 일치하지 않는 1차 및 2차 통계량을 보여 순위 안정성이 저하됨. 이러한 문제를 해결하기 위해 우리는 기성 시각-언어 모델을 강력한 전모달 임베딩 모델로 적응시키는 경량의 명시적 정렬 기법인 e5-omni를 제안합니다. e5-omni는 세 가지 간단한 구성 요소를 결합합니다: (1) 유사도 척도를 맞추기 위한 모달리티 인식 온도 보정, (2) 오류 네거티브의 영향을 줄이면서 혼동을 주는 네거티브 샘플에 집중하기 위한 편향 제거 기능이 있는 제어 가능한 네거티브 커리큘럼, (3) 공유 임베딩 공간에서의 교차 모달리티 기하학적 구조를 더 잘 맞추기 위한 공분산 정규화를 동반한 배치 화이트닝. MMEB-V2 및 AudioCaps에 대한 실험은 강력한 이중 모달 및 전모달 기준선 대비 일관된 성능 향상을 보여주며, 동일한 기법은 다른 시각-언어 모델 백본에도 잘 전이됩니다. 우리는 모델 체크포인트를 https://huggingface.co/Haon-Chen/e5-omni-7B 에 공개합니다.
English
Modern information systems often involve different types of items, e.g., a text query, an image, a video clip, or an audio segment. This motivates omni-modal embedding models that map heterogeneous modalities into a shared space for direct comparison. However, most recent omni-modal embeddings still rely heavily on implicit alignment inherited from pretrained vision-language model (VLM) backbones. In practice, this causes three common issues: (i) similarity logits have modality-dependent sharpness, so scores are not on a consistent scale; (ii) in-batch negatives become less effective over time because mixed-modality batches create an imbalanced hardness distribution; as a result, many negatives quickly become trivial and contribute little gradient; and (iii) embeddings across modalities show mismatched first- and second-order statistics, which makes rankings less stable. To tackle these problems, we propose e5-omni, a lightweight explicit alignment recipe that adapts off-the-shelf VLMs into robust omni-modal embedding models. e5-omni combines three simple components: (1) modality-aware temperature calibration to align similarity scales, (2) a controllable negative curriculum with debiasing to focus on confusing negatives while reducing the impact of false negatives, and (3) batch whitening with covariance regularization to better match cross-modal geometry in the shared embedding space. Experiments on MMEB-V2 and AudioCaps show consistent gains over strong bi-modal and omni-modal baselines, and the same recipe also transfers well to other VLM backbones. We release our model checkpoint at https://huggingface.co/Haon-Chen/e5-omni-7B.