UME-R1: Esplorazione di embedding multimodali generativi guidati dal ragionamento
UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings
November 1, 2025
Autori: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Abstract
Il notevole successo dei modelli linguistici multimodali di grandi dimensioni (MLLM) ha favorito i progressi negli embedding multimodali, sebbene i modelli esistenti rimangano intrinsecamente discriminativi, limitando la loro capacità di trarre vantaggio dal paradigma generativo guidato dal ragionamento. In questo lavoro, apriamo la strada all'esplorazione degli embedding generativi, unificando i compiti di embedding all'interno di un paradigma generativo. Proponiamo UME-R1, un framework universale per l'embedding multimodale costituito da una strategia di addestramento in due fasi: un fine-tuning supervisionato iniziale (cold-start) fornisce al modello capacità di ragionamento e gli consente di generare sia embedding discriminativi che generativi; un successivo apprendimento per rinforzo potenzia il ragionamento e ottimizza ulteriormente la qualità degli embedding generativi. Questo lavoro pionieristico rivale quattro intuizioni chiave: 1) gli embedding generativi sbloccano miglioramenti prestazionali sostanziali rispetto agli embedding discriminativi convenzionali, sfruttando le potenti capacità di ragionamento generativo degli MLLM; 2) gli embedding discriminativi e generativi sono complementari, e la loro performance combinata (oracolo) supera di gran lunga quella di ciascuno singolarmente; 3) l'apprendimento per rinforzo può migliorare efficacemente gli embedding generativi, stabilendo un paradigma di ottimizzazione scalabile; 4) il campionamento ripetuto durante l'inferenza aumenta la copertura dei task downstream (pass@k), evidenziando il potenziale di scalabilità degli embedding generativi al momento dell'inferenza. Valutato sul benchmark MMEB-V2 attraverso 78 task che comprendono video, immagini e documenti visivi, UME-R1 supera significativamente i modelli di embedding discriminativi convenzionali e offre una base per embedding multimodali generativi più interpretabili e guidati dal ragionamento. Il nostro codice, modelli e dataset saranno pubblicamente disponibili all'indirizzo https://github.com/XMUDeepLIT/UME-R1.
English
The remarkable success of multimodal large language models (MLLMs) has driven
advances in multimodal embeddings, yet existing models remain inherently
discriminative, limiting their ability to benefit from reasoning-driven
generation paradigm. In this work, we pioneer the exploration of generative
embeddings, unifying embedding tasks within a generative paradigm. We propose
UME-R1, a universal multimodal embedding framework consisting of a two-stage
training strategy: a cold-start supervised fine-tuning equips the model with
reasoning capabilities and enables it to generate both discriminative and
generative embeddings; a subsequent reinforcement learning enhances reasoning
and further optimizes generative embedding quality. This pioneering work
reveals four key insights: 1) generative embeddings unlock substantial
performance gains over conventional discriminative embeddings by leveraging the
powerful generative reasoning capabilities of MLLMs; 2) discriminative and
generative embeddings are complementary, whose combined oracle performance far
exceeding that of either alone; 3) RL can effectively enhance generative
embeddings, establishing a scalable optimization paradigm.; 4) repeated
sampling at inference boosts downstream task coverage (pass@k), highlighting
the inference-time scalability potential of generative embeddings. Evaluated on
the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual
documents, UME-R1 significantly outperforms conventional discriminative
embedding models and offers a foundation for more interpretable,
reasoning-driven generative multimodal embeddings. Our code, models, and
datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.