UME-R1: 추론 기반 생성형 멀티모달 임베딩 탐구
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
저자: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)의 놀라운 성공은 멀티모달 임베딩 기술의 발전을 주도했으나, 기존 모델들은 본질적으로 판별적 특성을 지녀 추론 기반 생성 패러다임의 이점을 충분히 활용하지 못하고 있습니다. 본 연구에서는 생성적 임베딩을 선도적으로 탐구하며 임베딩 작업을 생성 패러다임 내로 통합합니다. 우리는 2단계 학습 전략으로 구성된 범용 멀티모달 임베딩 프레임워크인 UME-R1을 제안합니다: 1) 콜드스타트 지도 미세조정을 통해 모델에 추론 능력을 부여하고 판별적 및 생성적 임베딩을 모두 생성할 수 있도록 하며, 2) 이후 강화학습을 통해 추론을 강화하고 생성적 임베딩 품질을 추가로 최적화합니다. 이 선구적 연구는 네 가지 핵심 통찰을 제시합니다: 1) 생성적 임베딩은 MLLM의 강력한 생성 추론 능력을 활용하여 기존 판별적 임베딩 대비 상당한 성능 향상을 제공합니다; 2) 판별적 임베딩과 생성적 임베딩은 상호 보완적이며, 둘을 결합한 오라클 성능은 각각 단독 사용 시 성능을 크게 능가합니다; 3) 강화학습은 생성적 임베딩을 효과적으로 향상시키며 확장 가능한 최적화 패러다임을 정립합니다; 4) 추론 시 반복 샘플링은 하류 작업 커버리지(pass@k)를 향상시켜 생성적 임베딩의 추론 시간 확장성 잠재력을 입증합니다. 비디오, 이미지, 시각 문서 분야의 78개 작업을 포함하는 MMEB-V2 벤치마크에서 평가한 결과, UME-R1은 기존 판별적 임베딩 모델을 크게 능가하며 더 해석 가능하고 추론 기반의 생성적 멀티모달 임베딩을 위한 기반을 마련합니다. 우리의 코드, 모델 및 데이터셋은 https://github.com/XMUDeepLIT/UME-R1에서 공개될 예정입니다.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.