UME-R1: Verkenning van redenering-gestuurde generatieve multimodale inbeddingen
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
Auteurs: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Samenvatting
De opmerkelijke successen van multimodale large language models (MLLMs) hebben de vooruitgang in multimodale embeddings aangewakkerd, maar bestaande modellen blijven inherent discriminerend, wat hun vermogen beperkt om te profiteren van het op redenering gebaseerde generatieparadigma. In dit werk pionieren we met de verkenning van generatieve embeddings, waarbij we embeddingtaken verenigen binnen een generatief paradigma. Wij stellen UME-R1 voor, een universeel multimodaal embeddingraamwerk dat bestaat uit een tweefasen-trainingsstrategie: een cold-start supervised fine-tuning voorziet het model van redeneervaardigheden en stelt het in staat om zowel discriminerende als generatieve embeddings te genereren; een daaropvolgende reinforcement learning verbetert het redeneren en optimaliseert verder de kwaliteit van de generatieve embeddings. Dit baanbrekende werk onthult vier belangrijke inzichten: 1) generatieve embeddings leveren aanzienlijke prestatieverbeteringen op ten opzichte van conventionele discriminerende embeddings door gebruik te maken van de krachtige generatieve redeneercapaciteiten van MLLMs; 2) discriminerende en generatieve embeddings zijn complementair, waarvan de gecombineerde oracle-prestatie ver uitstijgt boven die van elk afzonderlijk; 3) RL kan generatieve embeddings effectief verbeteren en stelt een schaalbaar optimalisatieparadigma in; 4) herhaalde sampling tijdens inferentie verhoogt de dekking van downstreamtaken (pass@k), wat het schaalbaarheidspotentieel van generatieve embeddings tijdens inferentie benadrukt. Geëvalueerd op de MMEB-V2-benchmark over 78 taken op het gebied van video, beeld en visuele documenten, presteert UME-R1 aanzienlijk beter dan conventionele discriminerende embeddingmodellen en biedt het een fundament voor meer interpreteerbare, op redenering gebaseerde generatieve multimodale embeddings. Onze code, modellen en datasets zullen openbaar beschikbaar zijn op https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.