언어 중심의 범모달 표현 학습 확장
Scaling Language-Centric Omnimodal Representation Learning
October 13, 2025
저자: Chenghao Xiao, Hou Pong Chan, Hao Zhang, Weiwen Xu, Mahani Aljunied, Yu Rong
cs.AI
초록
최근 대조 학습(Contrastive Learning, CL)으로 미세 조정된 멀티모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 활용한 멀티모달 임베딩 접근법이 유망한 결과를 보여주고 있지만, 그 우수성의 근본적인 이유는 아직 충분히 탐구되지 않았습니다. 본 연구는 MLLM 기반 접근법의 중요한 장점이 생성적 사전 학습 과정에서 달성되는 암묵적인 교차 모달 정렬에서 비롯된다고 주장합니다. 이 과정에서 언어 디코더는 공유된 표현 공간 내에서 멀티모달 신호를 활용하여 단일 모달 출력을 생성하는 방법을 학습합니다. 이방성(anisotropy)과 커널 유사성 구조(kernel similarity structure) 분석을 통해, 우리는 MLLM 표현 내에 잠재적 정렬이 발생하며, 이로 인해 CL이 경량화된 정제 단계로 작용할 수 있음을 실증적으로 확인했습니다. 이러한 통찰을 바탕으로, 우리는 언어 중심의 전모달 임베딩 프레임워크인 LCO-Emb(Language-Centric Omnimodal Embedding)를 제안합니다. 다양한 백본과 벤치마크에서의 광범위한 실험을 통해 LCO-Emb의 효과성을 입증하였으며, 여러 모달리티에서 최첨단 성능을 달성했습니다. 또한, 우리는 생성-표현 스케일링 법칙(Generation-Representation Scaling Law, GRSL)을 발견했는데, 이는 대조적 정제를 통해 얻은 표현 능력이 MLLM의 생성 능력과 양의 상관관계를 가진다는 것을 보여줍니다. 이는 생성 능력의 향상이 표현 품질을 강화하는 효과적인 패러다임으로 진화하고 있음을 시사합니다. 우리는 GRSL에 대한 이론적 설명을 제공하며, 이는 MLLM의 생성 품질을 표현 성능의 상한과 공식적으로 연결합니다. 이를 저자원 시각-문서 검색 작업에서 검증하여, CL 이전에 지속적인 생성적 사전 학습이 모델의 임베딩 능력 잠재력을 더욱 향상시킬 수 있음을 보여줍니다. 코드, 모델 및 리소스는 https://github.com/LCO-Embedding/LCO-Embedding에서 확인할 수 있습니다.
English
Recent multimodal embedding approaches leveraging multimodal large language
models (MLLMs) fine-tuned with contrastive learning (CL) have shown promising
results, yet the underlying reasons behind their superiority remain
underexplored. This work argues that a crucial advantage of MLLM-based
approaches stems from implicit cross-modal alignment achieved during generative
pretraining, where the language decoder learns to exploit multimodal signals
within a shared representation space for generating unimodal outputs. Through
analysis of anisotropy and kernel similarity structure, we empirically confirm
that latent alignment emerges within MLLM representations, allowing CL to serve
as a lightweight refinement stage. Leveraging this insight, we propose a
Language-Centric Omnimodal Embedding framework, termed LCO-Emb. Extensive
experiments across diverse backbones and benchmarks demonstrate its
effectiveness, achieving state-of-the-art performance across modalities.
Furthermore, we identify a Generation-Representation Scaling Law (GRSL),
showing that the representational capabilities gained through contrastive
refinement scales positively with the MLLM's generative capabilities. This
suggests that improving generative abilities evolves as an effective paradigm
for enhancing representation quality. We provide a theoretical explanation of
GRSL, which formally links the MLLM's generative quality to the upper bound on
its representation performance, and validate it on a challenging, low-resource
visual-document retrieval task, showing that continual generative pretraining
before CL can further enhance the potential of a model's embedding
capabilities. Codes, models, and resources are available at
https://github.com/LCO-Embedding/LCO-Embedding.