ChatPaper.aiChatPaper

UME-R1: 推論駆動型生成マルチモーダル埋め込みの探求

UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

November 1, 2025
著者: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の目覚ましい成功はマルチモーダル埋め込みの進歩を推進してきたが、既存のモデルは本質的に識別的であり、推論主導の生成パラダイムから恩恵を受ける能力が制限されている。本研究では、生成的な埋め込みの開拓に先駆的に取り組み、埋め込みタスクを生成パラダイム内で統合する。我々は、2段階の学習戦略からなる普遍的なマルチモーダル埋め込みフレームワークUME-R1を提案する:第1段階のコールドスタート教師ありファインチューニングにより、モデルに推論能力を付与し、識別的および生成的な埋め込みの両方を生成可能にする;続く強化学習により推論を強化し、生成的な埋め込みの品質をさらに最適化する。この先駆的な研究は以下の4つの重要な知見を明らかにした:1)生成的な埋め込みは、MLLMの強力な生成的推論能力を活用することで、従来の識別的埋め込みを大幅に上回る性能向上を実現する;2)識別的埋め込みと生成的埋め込みは相補的であり、それらを組み合わせたオラクル性能は単独使用を遥かに凌駕する;3)強化学習は生成的埋め込みを効果的に強化し、スケーラブルな最適化パラダイムを確立する;4)推論時の反復サンプリングは下流タスクの網羅性(pass@k)を向上させ、生成的埋め込みの推論時スケーラビリティの可能性を示唆する。映像、画像、視覚的文書にわたる78タスクを含むMMEB-V2ベンチマークで評価した結果、UME-R1は従来の識別的埋め込みモデルを大幅に上回り、より解釈可能で推論主導の生成的マルチモーダル埋め込みの基盤を提供する。コード、モデル、データセットはhttps://github.com/XMUDeepLIT/UME-R1 で公開予定である。
English
The remarkable success of multimodal large language models (MLLMs) has driven advances in multimodal embeddings, yet existing models remain inherently discriminative, limiting their ability to benefit from reasoning-driven generation paradigm. In this work, we pioneer the exploration of generative embeddings, unifying embedding tasks within a generative paradigm. We propose UME-R1, a universal multimodal embedding framework consisting of a two-stage training strategy: a cold-start supervised fine-tuning equips the model with reasoning capabilities and enables it to generate both discriminative and generative embeddings; a subsequent reinforcement learning enhances reasoning and further optimizes generative embedding quality. This pioneering work reveals four key insights: 1) generative embeddings unlock substantial performance gains over conventional discriminative embeddings by leveraging the powerful generative reasoning capabilities of MLLMs; 2) discriminative and generative embeddings are complementary, whose combined oracle performance far exceeding that of either alone; 3) RL can effectively enhance generative embeddings, establishing a scalable optimization paradigm.; 4) repeated sampling at inference boosts downstream task coverage (pass@k), highlighting the inference-time scalability potential of generative embeddings. Evaluated on the MMEB-V2 benchmark across 78 tasks spanning video, image, and visual documents, UME-R1 significantly outperforms conventional discriminative embedding models and offers a foundation for more interpretable, reasoning-driven generative multimodal embeddings. Our code, models, and datasets will be publicly available at https://github.com/XMUDeepLIT/UME-R1.
PDF51January 19, 2026