ChatPaper.aiChatPaper

Embed-RL: 推論駆動型マルチモーダル埋め込みのための強化学習

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

February 14, 2026
著者: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)の活用は、様々なクロスモーダルタスクに対処するための汎用マルチモーダル埋め込み(UME)の発展において極めて重要となっている。最近の研究では、識別的アプローチと比較して、生成的連鎖思考(CoT)推論を組み込むことでタスク特化的な表現が大幅に強化され得ることが実証されている。しかし、既存の生成的埋め込み手法で生成される推論CoTは、クエリのテキスト分析に限定されており、検索対象の retrieval と無関係である。これらの課題を解決するため、本論文では、埋め込みモデルが導く強化学習(EG-RL)を統合し、Reasoner が証拠に基づく追跡可能性CoT(T-CoT)を生成するよう最適化する、推論駆動型UMEフレームワークを提案する。主な貢献は以下の3点である:(1)Embedder が Reasoner に明示的な監督を提供し、生成されるCoTトレースが埋め込みタスクと整合することを保証するEG-RLフレームワークを設計。(2)検索関連要素に焦点を当てるための重要なマルチモーダル手がかりを抽出し、Embedder へのマルチモーダル入力を提供するT-CoTを導入。(3)限られた計算資源下において、我々のフレームワークがMMEB-V2およびUVRBベンチマークで先駆的な埋め込みモデルを凌駕する。構造化推論へのマルチモーダル証拠の統合と、検索指向のアライメントを組み合わせることで、クロスモーダル意味的一貫性が効果的に強化され、モデルの細粒度マッチング能力と複雑なシナリオにおける汎化性能が向上する。本研究は、対象を絞った推論最適化がマルチモーダル埋め込みの品質を大幅に改善し得ることを実証し、推論駆動型UME開発に対する実用的かつ効率的なソリューションを提供する。
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.
PDF72February 18, 2026