UME-R1 : Exploration des représentations multimodales génératives pilotées par le raisonnement
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
papers.authors: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
papers.abstract
Le succès remarquable des modèles de langage de grande taille multimodaux (MLLMs) a stimulé les progrès dans le domaine des plongements multimodaux. Cependant, les modèles existants restent intrinsèquement discriminatifs, ce qui limite leur capacité à bénéficier du paradigme de génération piloté par le raisonnement. Dans ce travail, nous ouvrons la voie à l'exploration des plongements génératifs, unifiant les tâches de plongement au sein d'un paradigme génératif. Nous proposons UME-R1, un cadre universel de plongement multimodal comprenant une stratégie d'apprentissage en deux étapes : un réglage fin supervisé de démarrage à froid qui dote le modèle de capacités de raisonnement et lui permet de générer à la fois des plongements discriminatifs et génératifs ; puis un apprentissage par renforcement qui améliore le raisonnement et optimise davantage la qualité des plongements génératifs. Ce travail pionnier révèle quatre insights clés : 1) les plongements génératifs permettent des gains de performance substantiels par rapport aux plongements discriminatifs conventionnels en exploitant les puissantes capacités de raisonnement génératif des MLLMs ; 2) les plongements discriminatifs et génératifs sont complémentaires, leur performance oracle combinée dépassant largement celle de chaque type pris isolément ; 3) l'apprentissage par renforcement peut efficacement améliorer les plongements génératifs, établissant un paradigme d'optimisation scalable ; 4) un échantillonnage répété lors de l'inférence améliore la couverture des tâches en aval (pass@k), soulignant le potentiel de scalabilité au moment de l'inférence des plongements génératifs. Évalué sur le benchmark MMEB-V2 à travers 78 tâches couvrant la vidéo, l'image et les documents visuels, UME-R1 surpasse significativement les modèles de plongement discriminatifs conventionnels et offre une base pour des plongements multimodaux génératifs plus interprétables et pilotés par le raisonnement. Notre code, modèles et jeux de données seront publics à l'adresse https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.