UME-R1: Exploración de Incrustaciones Multimodales Generativas Impulsadas por el Razonamiento
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
Autores: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Resumen
El notable éxito de los modelos de lenguaje grandes multimodales (MLLMs) ha impulsado avances en los embeddings multimodales, sin embargo, los modelos existentes siguen siendo inherentemente discriminativos, lo que limita su capacidad para beneficiarse del paradigma de generación impulsado por el razonamiento. En este trabajo, somos pioneros en la exploración de embeddings generativos, unificando las tareas de embedding dentro de un paradigma generativo. Proponemos UME-R1, un marco universal de embedding multimodal que consiste en una estrategia de entrenamiento en dos etapas: un ajuste fino supervisado de arranque en frío dota al modelo de capacidades de razonamiento y le permite generar embeddings tanto discriminativos como generativos; un posterior aprendizaje por refuerzo mejora el razonamiento y optimiza aún más la calidad del embedding generativo. Este trabajo pionero revela cuatro ideas clave: 1) los embeddings generativos desbloquean ganancias sustanciales de rendimiento sobre los embeddings discriminativos convencionales al aprovechar las potentes capacidades de razonamiento generativo de los MLLMs; 2) los embeddings discriminativos y generativos son complementarios, cuyo rendimiento óracle combinado supera con creces al de cualquiera por separado; 3) el RL puede mejorar eficazmente los embeddings generativos, estableciendo un paradigma de optimización escalable; 4) el muestreo repetido en la inferencia aumenta la cobertura de tareas posteriores (pass@k), destacando el potencial de escalabilidad en el tiempo de inferencia de los embeddings generativos. Evaluado en el benchmark MMEB-V2 a través de 78 tareas que abarcan video, imagen y documentos visuales, UME-R1 supera significativamente a los modelos de embedding discriminativos convencionales y ofrece una base para embeddings multimodales generativos más interpretables e impulsados por el razonamiento. Nuestro código, modelos y conjuntos de datos estarán disponibles públicamente en https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.