UME-R1: Explorando Embeddings Multimodais Generativos Orientados por Raciocínio
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
Autores: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Resumo
O notável sucesso dos modelos de linguagem multimodal de grande escala (MLLMs) tem impulsionado avanços em embeddings multimodais, porém os modelos existentes permanecem inerentemente discriminativos, limitando sua capacidade de se beneficiar do paradigma de geração orientado por raciocínio. Neste trabalho, pioneiramente exploramos embeddings generativos, unificando tarefas de embedding dentro de um paradigma generativo. Propomos o UME-R1, uma estrutura universal de embedding multimodal que consiste em uma estratégia de treinamento em dois estágios: um ajuste fino supervisionado de arranque inicial (cold-start) equipa o modelo com capacidades de raciocínio e permite que ele gere embeddings tanto discriminativos quanto generativos; um subsequente aprendizado por reforço aprimora o raciocínio e otimiza ainda mais a qualidade do embedding generativo. Este trabalho pioneiro revela quatro insights fundamentais: 1) embeddings generativos desbloqueiam ganhos substanciais de desempenho em comparação com embeddings discriminativos convencionais, aproveitando as poderosas capacidades de raciocínio generativo dos MLLMs; 2) embeddings discriminativos e generativos são complementares, cujo desempenho oráculo combinado supera em muito o de qualquer um isoladamente; 3) o AR pode efetivamente aprimorar embeddings generativos, estabelecendo um paradigma de otimização escalável; 4) a amostragem repetida durante a inferência aumenta a cobertura de tarefas subsequentes (pass@k), destacando o potencial de escalabilidade no tempo de inferência dos embeddings generativos. Avaliado no benchmark MMEB-V2 em 78 tarefas abrangendo vídeo, imagem e documentos visuais, o UME-R1 supera significativamente os modelos convencionais de embedding discriminativo e oferece uma base para embeddings multimodais generativos mais interpretáveis e orientados por raciocínio. Nosso código, modelos e conjuntos de dados estarão publicamente disponíveis em https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.