UME-R1: Erforschung reasoning-gesteuerter generativer multimodaler Einbettungen
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
papers.authors: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
papers.abstract
Der bemerkenswerte Erfolg multimodaler großer Sprachmodelle (MLLMs) hat Fortschritte bei multimodalen Einbettungen vorangetrieben, doch bestehende Modelle bleiben inhärent diskriminativ, was ihre Fähigkeit einschränkt, vom reasoning-gesteuerten Generierungsparadigma zu profitieren. In dieser Arbeit pionieren wir die Erforschung generativer Einbettungen und vereinheitlichen Einbettungsaufgaben innerhalb eines generativen Paradigmas. Wir schlagen UME-R1 vor, ein universelles multimodales Einbettungsframework mit einer Zwei-Phasen-Trainingsstrategie: Ein Cold-Start Supervised Fine-Tuning stattet das Modell mit Reasoning-Fähigkeiten aus und ermöglicht es ihm, sowohl diskriminative als auch generative Einbettungen zu erzeugen; ein anschließendes Reinforcement Learning verbessert das Reasoning und optimiert weiter die Qualität der generativen Einbettungen. Diese Pionierarbeit liefert vier zentrale Erkenntnisse: 1) Generative Einbettungen erzielen durch die Nutzung der leistungsstarken generativen Reasoning-Fähigkeiten von MLLMs erhebliche Leistungssteigerungen gegenüber konventionellen diskriminativen Einbettungen. 2) Diskriminative und generative Einbettungen sind komplementär – ihre kombinierte Oracle-Leistung übertrifft die der jeweiligen Einzelansätze bei weitem. 3) RL kann generative Einbettungen effektiv verbessern und etabliert ein skalierbares Optimierungsparadigma. 4) Wiederholtes Sampling während der Inferenz steigert die Abdeckung von Downstream-Aufgaben (pass@k) und unterstreicht das Skalierungspotenzial generativer Einbettungen zur Inferenzzeit. Ausgewertet auf dem MMEB-V2-Benchmark mit 78 Aufgaben aus den Bereichen Video, Bild und visuelle Dokumente, übertrifft UME-R1 konventionelle diskriminative Einbettungsmodelle signifikant und bietet eine Grundlage für interpretierbarere, reasoning-gesteuerte generative multimodale Einbettungen. Unser Code, Modelle und Datensätze werden unter https://github.com/XMUDeepLIT/UME-R1 öffentlich verfügbar sein.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.