MMEmb-R1: 推論機能強化型マルチモーダル埋め込み - ペア認識選択と適応的制御を備えて
MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control
April 7, 2026
著者: Yuchi Wang, Haiyang Yu, Weikang Bian, Jiefeng Long, Xiao Liang, Chao Feng, Hongsheng Li
cs.AI
要旨
MLLMはマルチモーダル埋め込みタスクに成功裏に適用されているが、その生成的推論能力は十分に活用されていない。チェイン・オブ・ソート推論を埋め込み学習に直接組み込むことには、二つの根本的課題がある。第一に、インスタンスレベルの推論とペアワイズ対比学習の間の構造的不整合は、モデルが推論の表面的な形式のみを学習するショートカット行動を引き起こす可能性がある。第二に、推論が常に埋め込みタスクに有益とは限らない。全ての入力に対して推論を強制すると、不必要な計算と遅延が生じ、単純なケースでは顕著な意味情報が曖昧になる可能性がある。これらの課題を解決するため、我々は適応的推論に基づくマルチモーダル埋め込みフレームワークMMEmb-R1を提案する。推論を潜在変数として定式化し、クエリとターゲットの整合性に有益な推論経路を特定するために反事実的介入を用いるペア認識型推論選択を導入する。さらに、強化学習を採用して必要時にのみ推論を選択的に起動する。MMEB-V2ベンチマークによる実験では、提案モデルが僅か4Bパラメータで71.2のスコアを達成し、推論オーバーヘッドと推論遅延を大幅に削減しながら新たなstate-of-the-artを確立した。
English
MLLMs have been successfully applied to multimodal embedding tasks, yet their generative reasoning capabilities remain underutilized. Directly incorporating chain-of-thought reasoning into embedding learning introduces two fundamental challenges. First, structural misalignment between instance-level reasoning and pairwise contrastive supervision may lead to shortcut behavior, where the model merely learns the superficial format of reasoning. Second, reasoning is not universally beneficial for embedding tasks. Enforcing reasoning for all inputs may introduce unnecessary computation and latency, and can even obscure salient semantic signals for simple cases. To address these issues, we propose MMEmb-R1, an adaptive reasoning-based multimodal embedding framework. We formulate reasoning as a latent variable and introduce pair-aware reasoning selection that employs counterfactual intervention to identify reasoning paths beneficial for query-target alignment. Furthermore, we adopt reinforcement learning to selectively invoke reasoning only when necessary. Experiments on the MMEB-V2 benchmark demonstrate that our model achieves a score of 71.2 with only 4B parameters, establishing a new state-of-the-art while significantly reducing reasoning overhead and inference latency.